爬虫
文章平均质量分 88
小白学习之旅
这个作者很懒,什么都没留下…
展开
-
WebMagic基本使用
1.架构介绍 WebMagic 的结构分为Downloader(下载)、PageProcessor(处理)、Scheduler(管理)、Pipeline(持久)四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy,但是实现方式更Java化一些。 Spider则将这几个组件组织起来,让它们可以互相交互,流程化的执行,可以认为Spider是一个大的容器,它也是WebMagic 逻辑的核心。. Request: R原创 2021-02-16 19:22:37 · 2352 阅读 · 1 评论 -
Jsoup静态网页解析
Jsoup介绍 jsoup是一款Java的HTMIL解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。. jsoup的主要功能如下: 从一个URL,文件(HTML文件)或字符串中解析HTML; 使用DOM 或 CSS选择器来查找、取出数据; 可操作HTML元素、属性、文本; ####相应依赖 <!-- jsoup--> <dependency>原创 2021-02-16 14:35:47 · 301 阅读 · 0 评论