爬虫
qq_42514129
猛兽总是独行,牛羊才成群结队。
展开
-
爬虫day02
typora-root-url: E:\image_rootWebMagic介绍 WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。 Spider则将这几个组件组织起来,让它们可以互相交互,流程化的执行,可以认为Spide...原创 2018-12-20 16:27:58 · 319 阅读 · 0 评论 -
爬虫day03
网页去重解决方案1.指纹码对比 最常见的去重方案是生成文档的指纹门。例如对一篇文章进行MD5加密生成一个字符串,我们可以认为这是文章的指纹码,再和其他的文章指纹码对比,一致则说明文章重复。但是这种方式是完全一致则是重复的,如果文章只是多了几个标点符号,那仍旧被认为是重复的,这种方式并不合理。2.BloomFilter 这种方式就是我们之前对url进行去重的方式,使用在这里的话,也是对文章...原创 2018-12-20 18:51:41 · 352 阅读 · 1 评论 -
爬虫day01
爬虫介绍: 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,爬虫通常有数据采集,处理,储存三个功能 本章节使用Java的HTTP协议客户端HttpClient这个技术,来实现抓取网页数据。使用步骤:1.导入依赖dependencies> <!-- HttpClient --> <dependency...原创 2018-12-17 21:06:01 · 363 阅读 · 0 评论