爬虫
liwei128
这个作者很懒,什么都没留下…
展开
-
手把手教你实现window图片爬虫(一)
第一篇:爬虫设计思路及原理 刚听说爬虫时,估计很多人觉得很神奇,是什么赋予了它生命力做到在网络上到处爬取的呢?等我说完你会恍然大悟,其实并没有多高深的技术,人人都可以写,爬虫也不是那么神奇的生命,也是基本的逻辑代码实现。 首先理一下思路,爬虫时怎么做到在网络上爬行的呢? 当我们访问一个网页时,可以看到里面有很多子链接,如果说我们把这些子链接捕获到并保存下来,那么就...原创 2018-03-29 22:28:53 · 1015 阅读 · 0 评论 -
手把手教你实现window图片爬虫(二)
第二篇:技术要点 1.网页抓取工具 在开发过程中用了好几个版本,经过不断调试,最终为了网页解析更准确,选择了phantomjs。 初级版:httpclient,优点速度快,缺点无法解析动态页面。 中级版: WebDriver 可以解析动态网页,可以使用IE内核,当然还有FirefoxDriver, ChromeDriver,HtmlUnitDriver,这些driv...原创 2018-03-29 23:16:54 · 452 阅读 · 0 评论 -
手把手教你实现window图片爬虫(三)
第三篇:性能优化及踩坑 优化工作 1.采用基于线程池管理的定时任务ScheduledThreadPoolExecutor 2.所有的异步操作统一走线程池管理 3.监控信息查询优化(降低复杂度) 4.增加失败重试机制 5.网页抓取以及图片下载多线程异步进行,并严格控制并发数量(界面配置爬取速度) 6.选择速度最快的jackson序列化以及反序列化 7.添加...原创 2018-03-29 23:36:40 · 205 阅读 · 0 评论 -
解决centos下phantomJs无法访问https的问题
今天遇到了一个很尴尬的问题,在window上运行正常的phantomJs,结果到linux上就无法访问。如下: 而http协议的一切正常。然后开始找原因: 试了下 curl https://www.baidu.com是可以正常返回的。说明问题不在系统,而在于linux版本的phantomJs上。 个人猜想是Https安全协议的问题,我知道的一些协议如tlsv1.0 ...原创 2018-03-29 16:11:16 · 2681 阅读 · 2 评论