![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫系列
介绍JAVA爬虫开发
old_cai_niao
一个工作多年的老菜鸟,希望跟你共同进步。
展开
-
WebMagic爬虫的配置、启动和终止
爬虫的配置、启动和终止Spider创建Spider对象添加请求URL设置线程数及启动总结SpiderSpider是爬虫启动的入口。在启动爬虫之前,我们需要使用一个PageProcessor创建一个Spider对象,然后使用run()进行启动。同时Spider的其他组件(Downloader、Scheduler、Pipeline)都可以通过set方法来进行设置。下面我们通过源码来进行讲解下:创建Spider对象 /** * create a spider with pageProce原创 2020-09-04 15:51:11 · 1116 阅读 · 0 评论 -
编写基本的爬虫1
编写基本的爬虫1实现PageProcessor环境说明示例代码运行结果在WebMagic里,实现一个基本的爬虫只需要编写一个类,实现PageProcessor接口即可。这个类基本上包含了抓取一个网站,你需要写的所有代码。同时这部分还会介绍如何使用WebMagic的抽取API,以及最常见的抓取结果保存的问题实现PageProcessor这部分我们通过一个简单例子来介绍PageProcessor的编写方式,我将PageProcessor的定制分为二个部分,分别是爬虫的配置和页面元素的抽取。爬取的网址为C原创 2020-09-03 17:39:08 · 124 阅读 · 0 评论 -
WebMagic第一个爬虫例子
第一个爬虫例子1、环境篇1.1案例说明1.2 案例代码1.3 运行结果1、环境篇JDK版本:1.8IDE: IDEA2019.21.1案例说明本例采集网站https://github.com/code4craft首页,作者名称,如下图:1.2 案例代码案例代码非常简单,只需要实现PageProcessor。/** * @version V1.0 * @description: * @author: old_cai_niao * @date: 2020/9/2 14:02 */原创 2020-09-02 14:18:52 · 286 阅读 · 0 评论 -
WebMagic入门介绍
WebMagic入门介绍1.WebMagic概览1.1 设计思想1.2 总体架构1.3 项目组成1.WebMagic概览WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现,而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy,目标是尽量的模块化,并体现爬虫的功能特点。这部分提供非常简单、灵活的API,在基本不改变开发模式的情况下,编写一个爬虫。扩展部分(webmagic-extension)提供一些便捷原创 2020-09-01 16:10:52 · 377 阅读 · 0 评论