webmagic 获取文本_使用webmagic编写Java爬虫获取博客园文章内容

本文介绍了如何使用WebMagic Java爬虫框架来抓取博客园的文章内容。通过添加Maven依赖、理解普通模式和注解模式,然后创建带有注解的POJO类,结合XPath定位元素,实现对文章标题、内容和日期的提取。示例代码展示了如何配置和运行爬虫。
摘要由CSDN通过智能技术生成

无意中发现了这个框架,真正的传说中的傻瓜爬虫框架,用来写简单爬虫很方便,也能够通过多写一些代码写复杂爬虫,作者是中国人,看文档就能学会这个框架的使用,我这里简单的用cnblogs举例介绍一下这个框架的使用。

1. 先导知识

Java:这个就不多说了,不会Java肯定是要用Python写爬虫的,资料一找一大堆。

Maven:Maven被idea集成,用起来非常傻瓜,教程一搜一大堆。

正则表达式的基本使用:我是看的这本书《正则表达式必知必会》,看完前几章就够了,目测耗时不超过1小时。

XPath简单语法:只谈使用的话,用于本爬虫看了这页教程就够了XPath语法。

2. 官方教程

官方教程位置在WebMagic in Action,官方教程非常亲民易懂,如果有能力建议直接去看github上的仓库webmagic。

3. 简单爬虫编写

3.1. Maven配置

首先是添加Maven依赖,其依赖的包会自动加载。

us.codecraft

webmagic-core

0.6.1

us.codecraft

webmagic-extension

0.6.1

之后,就可以愉快的开始写爬虫啦~

3.2. 第一个爬虫:博客园

首先一定要阅读官方文档,理解其中的普通模式后,再理解注解模式。

由于官方文档中爬github的爬虫目前已经失效了,所以我这里用爬cnblogs为例,贡献一下我自己的博客,讲

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值