selenium使用笔记
iteye_18228
这个作者很懒,什么都没留下…
展开
-
网络爬虫技术
搞了大半夜,终于把selenium 驱动Firefox调通。 这是web测试工具,也可用作页面抓取工具,尤其是对网站结构比较复杂,有异步加载的网站尤为合适。 废话少说,上代码, 上代码之前,先说下环境: selenium版本: <dependency> <groupId>org.seleniumhq.selenium</groupId&...原创 2015-02-12 02:22:51 · 102 阅读 · 0 评论 -
selenium爬取网页的性能问题
5个浏览器窗口(5个线程),每小时3000个网页,理论上一台4C*8GB的台式机能达到每小时6-8000的网页(除掉带宽/对方防爬和对方服务器性能优越),对难搞的网站抓取性能还是不错的!...原创 2015-02-15 17:59:40 · 852 阅读 · 0 评论 -
selenium驱动firefox抓取网页数据,在firefox内存优化和速度优化方面的努力
使用默认frofile,启动firefox 内存600M,几个小时之后彪到一个G。 禁用掉图片,缓存 启动内存200M左右,但是几个小时之后内存彪到600M左右. 目前查到的优化项,正在努力中&尝试中......, 各种尝试如果都不行,目前想到的终极解决方案:爬取一定量的页面之后关闭当前线程对应的firefox窗口,开启新窗口! profile.setPreferen...原创 2015-03-04 20:00:24 · 1135 阅读 · 0 评论 -
selenium驱动Chrome抓取网页数据
目的:使用selenium抓取数据。抓取网页数据可以有多种技术方法(这里只列几种):1.java httpclient+jsoup(对js基本无支持),类似于wget和jsoup。2.分析对方网站暴露出的接口3.htmlunit4.selenium5.webkit(没有测试过,不过听说chrome内核也是基于webkit的,具体细节不明)对于以上各种方法的适用场景:方法1:适合那种禁用js和c...原创 2015-03-25 11:41:52 · 342 阅读 · 0 评论 -
selenium ChromeDriver禁用图片
环境:centos6.6+selenium maven 2.45.0+41.0.2272.101 (64-bit) ChromeDriver禁用图片问题,花了几个小时在网上搜索,一直没有找到想要的结果。 搜到到结果大同小异,但是始终没有解决我的问题。 偶然点到了这个网页 https://www.linkedin.com/groups/Store-files-download-in-cu...原创 2015-03-27 14:19:08 · 1316 阅读 · 0 评论