动态爬虫
文章平均质量分 73
shsugar
你的时间在哪里,你的成就就会在哪里
展开
-
【爬虫】一种基于网页相似度去重的爬虫系统
现有的技术方案:为解决网页重复抓取的问题,现有的爬虫系统主要是以URL的维度来进行去重。简单的,直接将URL放入数据库中或者放入Redis的Set集合进行去重,复杂一些的,会综合参数名的构成和参数值的类型、长度、频次等生成相关的规则来进行去重。 存在的问题:目前互联网上存在较大一部分内容相似的网页,这些重复网页有的在内容上稍作修改,有的仅仅是网页的格式不同,有的则是毫无改动的完全复制。现有的爬虫系统,主要利用URL来进行去重。但是链接...原创 2021-11-26 10:21:25 · 2059 阅读 · 0 评论 -
【爬虫】慎用Jsoup中的Element.toString
问题背景: 最近一个爬虫类的项目,在自测时发现CPU占用异常高(2核4G 10个URL/s的速率爬取),几乎是打满了,所以开始去排查过高的原因找到阻塞的线程 通过jconsole来分析 可以看到 pool-1070-thread-3 线程的总阻止数为 82,说明是阻塞在了该线程,从而定位到代码: public XPath(Element el) { String tagName = el.tagName()...原创 2021-11-23 11:31:18 · 867 阅读 · 0 评论 -
【Puppeteer】基于Puppeteer采集网页图片资源
背景:负责的一个网页资源采集类的项目,之前是Java后台直接使用HTTP请求获取网页源码,再通过jsoup解析网页,跟据标签提取出图片。但是最近在一次客户的演练中,出现了图片漏抓的情况。具体分析网页一看,发现是写在css样式里的图片,以前的静态爬虫的方式确实覆盖不到。 现在想想,之前的静态爬虫方式还是太过简单了,已经无法胜任目前复杂的前端网页,可能存在以下问题:1.网页源码是没有经过渲染的,会遗漏掉渲染新增的一些资源。比如需要根据ajax返回的结果才渲染展示的内容2...原创 2021-11-22 19:52:54 · 2479 阅读 · 1 评论