shsugar-CSDN博客

原创【爬虫】一种基于网页相似度去重的爬虫系统

现有的技术方案：为解决网页重复抓取的问题，现有的爬虫系统主要是以URL的维度来进行去重。简单的，直接将URL放入数据库中或者放入Redis的Set集合进行去重，复杂一些的，会综合参数名的构成和参数值的类型、长度、频次等生成相关的规则来进行去重。存在的问题：目前互联网上存在较大一部分内容相似的网页，这些重复网页有的在内容上稍作修改，有的仅仅是网页的格式不同，有的则是毫无改动的完全复制。现有的爬虫系统，主要利用URL来进行去重。但是链接...

2021-11-26 10:21:25 2147

原创【爬虫】慎用Jsoup中的Element.toString

问题背景：最近一个爬虫类的项目，在自测时发现CPU占用异常高（2核4G 10个URL/s的速率爬取），几乎是打满了，所以开始去排查过高的原因找到阻塞的线程通过jconsole来分析可以看到 pool-1070-thread-3 线程的总阻止数为 82，说明是阻塞在了该线程，从而定位到代码： public XPath(Element el) { String tagName = el.tagName()...

2021-11-23 11:31:18 885

原创【WebSocket】断连问题排查

背景负责的一套网页健康度拨测的系统，包含【中心节点-Master】【拨测节点-Agent】，Master和Agent通过websocket协议进行通讯。Master会定时向Agent下发拨测任务消息。Agent会对这些消息进行消费（curl、DNS拨测），返回拨测结果。Agent也会定时向拨测中心发送心跳消息，以保持连接。总体架构图如下：系统会对外暴露一个拨测接口，提供拨测服务，时序图如下：问题测试发...

2021-11-23 10:40:03 9206

原创【Puppeteer】基于Puppeteer采集网页图片资源

背景：负责的一个网页资源采集类的项目，之前是Java后台直接使用HTTP请求获取网页源码，再通过jsoup解析网页，跟据标签提取出图片。但是最近在一次客户的演练中，出现了图片漏抓的情况。具体分析网页一看，发现是写在css样式里的图片，以前的静态爬虫的方式确实覆盖不到。现在想想，之前的静态爬虫方式还是太过简单了，已经无法胜任目前复杂的前端网页，可能存在以下问题：1.网页源码是没有经过渲染的，会遗漏掉渲染新增的一些资源。比如需要根据ajax返回的结果才渲染展示的内容2...

2021-11-22 19:52:54 2568 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 【爬虫】一种基于网页相似度去重的爬虫系统

原创 【爬虫】慎用Jsoup中的Element.toString

原创 【WebSocket】断连问题排查

原创 【Puppeteer】基于Puppeteer采集网页图片资源

空空如也

空空如也

原创【爬虫】一种基于网页相似度去重的爬虫系统

原创【爬虫】慎用Jsoup中的Element.toString

原创【WebSocket】断连问题排查

原创【Puppeteer】基于Puppeteer采集网页图片资源