基于WebMagic的CSDN博客爬虫

            博客原文请访问:http://zhuqiuhui.space/Blogs/2017/03/webmagic-csdn-crawler.html

       刚入职没有多久,开发任务不是太重,很多功能的开发不能全部参与,闲暇之余,mentor给了一个小的开发任务“把美周内部共享的电子书全部爬取下来”,其实刚接到这个任务不知道怎么入手,便查了相关的爬虫工具,如nutch、Heritrix、crawler4j、WebMagic等等。其中WebMagic是国人黄亿华先生的良心大作,WebMagic是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫,这里给出了两个例子,一个是爬取CSDN博客信息,一个是爬虫电子书。

一、基本jar包

  本文用到的是pom文件,自动导入jar包,可参考pom包,如果不使用pom.xml构建,可导入相应的jar包就可以了,参见不使用pom构建

二、CSDN爬取博客信息示例

  本例测试了zhuqiuhui的专栏下博客title信息的爬取例子,代码参见Github代码

三、pdf电子书爬取示例

  本例测试了爬取电子书的测试例子,相关代码用到了cookie(写爬虫时遇到登录情况必须要使用到cookie),代码参见Github代码

博客原文请访问:http://zhuqiuhui.space/Blogs/2017/03/webmagic-csdn-crawler.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

bboyzqh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值