- 博客(4)
- 收藏
- 关注
原创 【爬虫】一种基于网页相似度去重的爬虫系统
现有的技术方案:为解决网页重复抓取的问题,现有的爬虫系统主要是以URL的维度来进行去重。简单的,直接将URL放入数据库中或者放入Redis的Set集合进行去重,复杂一些的,会综合参数名的构成和参数值的类型、长度、频次等生成相关的规则来进行去重。 存在的问题:目前互联网上存在较大一部分内容相似的网页,这些重复网页有的在内容上稍作修改,有的仅仅是网页的格式不同,有的则是毫无改动的完全复制。现有的爬虫系统,主要利用URL来进行去重。但是链接...
2021-11-26 10:21:25 2147
原创 【爬虫】慎用Jsoup中的Element.toString
问题背景: 最近一个爬虫类的项目,在自测时发现CPU占用异常高(2核4G 10个URL/s的速率爬取),几乎是打满了,所以开始去排查过高的原因找到阻塞的线程 通过jconsole来分析 可以看到 pool-1070-thread-3 线程的总阻止数为 82,说明是阻塞在了该线程,从而定位到代码: public XPath(Element el) { String tagName = el.tagName()...
2021-11-23 11:31:18 885
原创 【WebSocket】断连问题排查
背景 负责的一套网页健康度拨测的系统,包含【中心节点-Master】【拨测节点-Agent】,Master和Agent通过websocket协议进行通讯。Master会定时向Agent下发拨测任务消息。Agent会对这些消息进行消费(curl、DNS拨测),返回拨测结果。Agent也会定时向拨测中心发送心跳消息,以保持连接。 总体架构图如下: 系统会对外暴露一个拨测接口,提供拨测服务,时序图如下:问题测试发...
2021-11-23 10:40:03 9206
原创 【Puppeteer】基于Puppeteer采集网页图片资源
背景:负责的一个网页资源采集类的项目,之前是Java后台直接使用HTTP请求获取网页源码,再通过jsoup解析网页,跟据标签提取出图片。但是最近在一次客户的演练中,出现了图片漏抓的情况。具体分析网页一看,发现是写在css样式里的图片,以前的静态爬虫的方式确实覆盖不到。 现在想想,之前的静态爬虫方式还是太过简单了,已经无法胜任目前复杂的前端网页,可能存在以下问题:1.网页源码是没有经过渲染的,会遗漏掉渲染新增的一些资源。比如需要根据ajax返回的结果才渲染展示的内容2...
2021-11-22 19:52:54 2568 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人