crawler
文章平均质量分 81
云定止水
这个作者很懒,什么都没留下…
展开
-
爬虫之自动保存文档-使用python/selenium
网络抓取的时候会碰到需要从网站下载文件的情况。下面提供两种方法: 1. selenium + firefox + firefoxProfile 核心要点是在firefox中设置相关的下载参数,然后在模拟点击的时候,selenium webdriver会自动保存对应的文档。 貌似文件的自动保存需要使用的webdriver只能是firefox。在网上并没有搜到使用对其他webdriver工具原创 2015-11-27 17:01:18 · 4543 阅读 · 1 评论 -
爬虫之登陆验证
运行爬虫抓取某些网站的时候,经常会碰到需要登陆验证(输入账号、密码)之后才能获取数据的情况。那么问题来了,如何完成登陆验证呢?下面以itunes为例大概总结两种方法。主要使用工具为python/java、selenium、phantomjs或firefox/chrome等浏览器. 一 python urllib2库的简单介绍 本人之前主要使用java进行外部数据获取,用的工具包httpclie原创 2016-11-25 10:49:55 · 38284 阅读 · 2 评论