自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 【爬虫】一种基于网页相似度去重的爬虫系统

现有的技术方案:为解决网页重复抓取的问题,现有的爬虫系统主要是以URL的维度来进行去重。简单的,直接将URL放入数据库中或者放入Redis的Set集合进行去重,复杂一些的,会综合参数名的构成和参数值的类型、长度、频次等生成相关的规则来进行去重。 存在的问题:目前互联网上存在较大一部分内容相似的网页,这些重复网页有的在内容上稍作修改,有的仅仅是网页的格式不同,有的则是毫无改动的完全复制。现有的爬虫系统,主要利用URL来进行去重。但是链接...

2021-11-26 10:21:25 2147

原创 【爬虫】慎用Jsoup中的Element.toString

问题背景: 最近一个爬虫类的项目,在自测时发现CPU占用异常高(2核4G 10个URL/s的速率爬取),几乎是打满了,所以开始去排查过高的原因找到阻塞的线程 通过jconsole来分析 可以看到 pool-1070-thread-3 线程的总阻止数为 82,说明是阻塞在了该线程,从而定位到代码: public XPath(Element el) { String tagName = el.tagName()...

2021-11-23 11:31:18 885

原创 【WebSocket】断连问题排查

背景 负责的一套网页健康度拨测的系统,包含【中心节点-Master】【拨测节点-Agent】,Master和Agent通过websocket协议进行通讯。Master会定时向Agent下发拨测任务消息。Agent会对这些消息进行消费(curl、DNS拨测),返回拨测结果。Agent也会定时向拨测中心发送心跳消息,以保持连接。 总体架构图如下: 系统会对外暴露一个拨测接口,提供拨测服务,时序图如下:问题测试发...

2021-11-23 10:40:03 9206

原创 【Puppeteer】基于Puppeteer采集网页图片资源

背景:负责的一个网页资源采集类的项目,之前是Java后台直接使用HTTP请求获取网页源码,再通过jsoup解析网页,跟据标签提取出图片。但是最近在一次客户的演练中,出现了图片漏抓的情况。具体分析网页一看,发现是写在css样式里的图片,以前的静态爬虫的方式确实覆盖不到。 现在想想,之前的静态爬虫方式还是太过简单了,已经无法胜任目前复杂的前端网页,可能存在以下问题:1.网页源码是没有经过渲染的,会遗漏掉渲染新增的一些资源。比如需要根据ajax返回的结果才渲染展示的内容2...

2021-11-22 19:52:54 2568 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除