Java 基于WebMagic 开发的网络爬虫

第一次接触爬虫,之所以选择WebMagic,是因为文档齐全、用法简单、而且框架一直在维护。

WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,我们可以快速开发出一个高效、易维护的爬虫。

官网地址:http://webmagic.io/

官方文档:http://webmagic.io/docs/zh/

文档写的很详细,重头到尾看一遍,编写简单的爬虫基本上没有任何问题了(如果不行,那就看两遍)。

我这里就不在讲解怎么使用了(讲解的没有官网详细,甚至可能讲错)。这里我放两个我写的小工具。简单的网站可以用它直接抓取。

上图

抓取地址:是我们的起始网页。

列表规则(正则表达式):存放具体页面链接的列表页面

页面规则(正则表达式):我们要抓取的具体页面

抓取内容(Xpath):我们要抓取的具体内容,其中"<jschrj>" 为每个字段的分隔符,“<lyf>”是字段显示的名称和内容的分隔符。

存放地址:爬取下来的文件存放的位置。

线程数:开启多少个线程爬取(没有用代理,所以线程开多了,IP容易被网站封杀)。

下面的文本框为控制台,用来输出爬取的详细信息。

工具下载地址:https://download.csdn.net/download/lyfzxf/10533865

源码下载地址:https://download.csdn.net/download/lyfzxf/10533892


  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值