爬虫
文章平均质量分 90
爬虫学习
Binary Oracle
一名热爱开源和技术的Coder , 开源框架spring committer , golang开源网络库netpoll committer; (脱产备战25考研中,停更一年)
展开
-
Java爬爬之网页去重和代理ip
Java爬爬之网页去重和代理ip网页去重去重方案介绍SimHash流程介绍签名距离计算导入simhash的工程测试simhash代理的使用代理服务器使用代理网页去重之前我们对下载的url地址进行了去重操作,避免同样的url下载多次。其实不光url需要去重,我们对下载的内容也需要去重。在网上我们可以找到许多内容相似的文章。但是实际我们只需要其中一个即可,同样的内容没有必要下载多次,那么如何进行去重就需要进行处理了去重方案介绍指纹码对比最常见的去重方案是生成文档的指纹门。例如对一篇文章进行MD原创 2021-12-18 09:42:26 · 403 阅读 · 0 评论 -
Java爬爬学习之WebMagic
Java爬爬学习之WebMagicWebMagic介绍架构介绍WebMagic的四个组件用于数据流转的对象案例引入依赖加入配置文件相关资料WebMagic功能实现PageProcessor抽取元素Selectable1.XPath2.CSS选择器3.正则表达式抽取元素API获取结果API获取链接使用Pipeline保存结果爬虫的配置、启动和终止Spider爬虫配置Site爬虫分类通用网络爬虫聚焦网络爬虫增量式网络爬虫Deep Web 爬虫案例开发分析数据库表实现流程Scheduler组件三种去重方式使用和定原创 2021-12-17 18:18:19 · 578 阅读 · 1 评论 -
java爬虫知识盲区整理
java爬虫知识盲区整理HttpClient重定向处理HttpClient获取Cookie的两种方式HttpClient重定向处理【HttpClient4.5中文教程】八.终止请求和重定向处理首先说说HttpClient和浏览器的区别我们从浏览器发起一笔请求,浏览器则会帮你处理重定向、缓存等事情。这也就是为什么用浏览器表单post提交后,不管服务端如何重定向,都能正常接收到服务端返回的数据。但是用HttpClient呢,你会发现,请求后,会返回302,因为POST方式提交HttpClient是不原创 2021-12-16 22:25:31 · 248 阅读 · 0 评论 -
JAVA网络爬爬学习之HttpClient+Jsoup
JAVA网络爬爬学习HttpClient用法简单整理GET请求无参带参POST请求无参带参HttpClient用法简单整理引入HttpClient和日志依赖 <dependencies><!-- HttpClient--> <dependency> <groupId>org.apache.httpcomponents</groupId> <artif原创 2021-12-15 16:59:32 · 1432 阅读 · 0 评论