![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
大虾哥哥
挨踢的人生!!
展开
-
关于htmlunit运行时报各种错的坑
因为项目需要,采用htmlunit爬取带ajax和其他js执行结果的页面,开发环境jdk1.7 和maven网上很多资料上使用的htmlunit版本的示例使用了之后,老是报错,根本原因就是htmlunit的版本问题或者jar包缺失问题。经过一天多的折腾,终于有一个可以用的示例了。最新的htmlunit不兼容jdk1.7所以使用低版本2.18版的htmlunit先记录如下:maven依赖...原创 2019-01-21 18:19:03 · 7212 阅读 · 0 评论 -
关于CountDownLatch在多线程爬虫中 同步中的一个坑
因为项目需要,需要使用quartz定时器,实现一个爬虫功能,远程爬取一些数据,之前都是从一个网站(即单一来源)进行数据爬取,爬取成功则更新缓存,爬取失败则忽略,后来为了防止数据水分过大,需要从多个类似的网站都进行爬取,然后取平均值。当时为了加快爬取效率,使用了CountDownLatch,配合多个线程对多个数据来源进行爬取。开发和测试时都没问题,很正常,直到某一天我们发现数据没变化了,排查服务器日...原创 2019-03-25 17:15:55 · 645 阅读 · 0 评论 -
Jsoup 解析html时,doc.getElementsByClass方法 空格问题
今天发现2年前的爬虫接口爬取突然失败了。调试发现因为html页面结构发生了变化,导致doc.getElementsByClass方法没有获得目标元素节点。经过排除发现html中某个节点的class样式中有空格,如<span class="pl-1 info-value">.....</span>经过测试,解决方法如下:1、使用doc.getElementsBy...原创 2019-09-11 15:20:11 · 1670 阅读 · 0 评论