爬虫开发
文章平均质量分 80
Oo此岸花开oO
这个作者很懒,什么都没留下…
展开
-
简单的Selenium访问控制线程池
思路:频繁开关phantomJS进程比较耗费资源,所以需要维护一个线程池控制访问以减少内存消耗 1. 自定义操作CustomAction接口 public interface CustomAction { String action(WebDriver webDriver); } 2. WebDriverPool池 public class WebDriverPool {原创 2016-08-16 22:51:52 · 5662 阅读 · 0 评论 -
Selenium自定义配置的策略
1. 希望能对WebDriver的超时(HttpClient)自定义配置 关键的类: HttpCommandExecutor、HttpClientFactory 顾名思义,HttpClientFactory可以生成HttpClient用于处理HTTP请求,而从源码中可以看到其中的SoTimeout并不合理 HttpClientFactory : private final int TI原创 2016-08-17 22:33:16 · 1583 阅读 · 0 评论 -
selenium2.53的一些实践
Selenium是一个自动化测试工具,可以模拟用户操作浏览器的行为,故也可以用于对一些需要执行JS脚本的网站的爬虫的开发 一、Linux(Centos)下命令行环境的搭建 1.1 Xvfb的安装 由于命令行下没有图形界面,这样就需要一个虚拟的后台运行的桌面Xvfb来欺骗浏览器使其得以正常运行 yum install Xvfb 1.2 后台启动Xvfb并指定DISPLA原创 2016-08-14 22:19:55 · 2192 阅读 · 0 评论