Java爬虫-Webmagic
网页抓取学习与练习
Timeless小帅
将来成不成功不知道,我只知道现在努力过,拼搏过,就够了
展开
-
[Java爬虫-WebMagic]-06-将爬取结果保存成Excel
将爬取结果保存成Excel我们可以吧爬取的结果保存成一个Excel文件,方便计算也方便别人查看导包Gradle//爬虫包compile group: 'us.codecraft', name: 'webmagic-core', version: '0.7.3'compile group: 'us.codecraft', name: 'webmagic-extension', ver...原创 2020-02-08 17:06:22 · 1161 阅读 · 0 评论 -
[Java爬虫-WebMagic]-05-多级爬取
多级爬取有时候我们需要爬取一些多级的资料例如 我想爬取博客 所有分栏 的 所有博文 这样的话单纯的像之前的爬取方法爬不到而且分栏是可以改变的 可能作者突然加了个分栏,你的程序就需要做一次修改为了解决这种问题,所以可以使用 多次爬取来解决第一步 配置爬虫入口这里直接使用简写方式了//只需要在这里添加上博客地址就可以了private static String homeUrl = "...原创 2020-02-08 15:58:14 · 1526 阅读 · 0 评论 -
[Java爬虫-WebMagic]-04-处理爬取的结果
使用和定制PipelinePileline是抽取结束后,进行处理的部分,它主要用于抽取结果的保存,也可以定制Pileline可以实现一些通用的功能。一个爬虫可以同时定制多个PipelinePipeline的接口定义如下:public interface Pipeline { // ResultItems保存了抽取结果,它是一个Map结构, // 在page.putFiel...原创 2020-02-08 13:37:49 · 1202 阅读 · 0 评论 -
[Java爬虫-WebMagic]-03-解析Html源码
解析Html源码在上一篇中,获取了网页的html源码,但是里面东西太多了,并不是我们想要的结果所以我们需要提取我们想要的结果使用Selectable接口,你可以直接完成页面元素的链式抽取,也无需去关心抽取的细节。我们通过Page对象获取了html对象,如果深入的话会发现,Html对象的父类实现了Selectable接口,它是可以进行提取元素的。Selectable中的部分API...原创 2020-02-07 19:35:05 · 1124 阅读 · 0 评论 -
[Java爬虫-WebMagic]-02-获取网页源码
获取网页源码程序入口SpiderSpider 一般写在Main方法里它可以设置爬虫的配置,包括编码、抓取间隔、超时时间、重试次数等,也包括一些模拟的参数,例如User Agent、cookie,以及代理的设置public static void main(String[] args) { //创建爬虫解析页面 PageProcessor pageProces...原创 2020-02-07 14:27:31 · 838 阅读 · 0 评论 -
[Java爬虫-WebMagic]-01-初识爬虫框架WebMagic
什么是WebmagicWebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现,而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy,目标是尽量的模块化,并体现爬虫的功能特点。这部分提供非常简单、灵活的API,在基本不改变开发模式的情况下,编写一个爬虫。扩展部分(webmagic-extension...原创 2020-02-07 13:05:51 · 2610 阅读 · 0 评论