python爬虫scrapy框架爬取网页数据_Python爬虫神器scrapy框架爬取博客园Python相关40W博客!...

经常看博客的同志知道,博客园每个栏目下面有200页,多了的数据他就不显示了,最多显示4000篇博客如何尽可能多的得到博客数据,是这篇文章研究的一点点核心内容,能√get到多少就看你的了~70d3eb1f01e57ca1b8928a80b8f12a01294f252b.png

单纯的从每个栏目去爬取是不显示的,转换一下思路,看到搜索页面,有时间~,有时间!cc4ddb0f8e0ad256d5af46e247bf42ccf4bb2fbe.png

注意看URL链接

https://zzk.cnblogs.com/s/blogpost?Keywords=python&datetimerange=Customer&from=2019-01-01&to=2019-01-01

这个链接得到之后,其实用一个比较简单的思路就可以获取到所有python相关的文章了,迭代时间。

下面编写核心代码,比较重要的几个点,我单独提炼出来。页面搜索的时候因为加了验证,所以你必须要获取到你本地的cookie,这个你很容易得到

字典生成器的语法是时候去复习一下了

42fa0e14fe8c99eb802d086d901f44de421f5069.png

页面爬取完毕之后,需要进行解析,获取翻页页码,同时将时间+1天,下面的代码重点看时间叠加部分的操作。

ace300f3a5da8c13213f7797ce5f49391344166c.png

页面解析入库

本部分操作逻辑没有复杂点,只需要按照流程编写即可,运行代码,跑起来,在mongodb等待一些时间

db.getCollection('dict').count({})

返回

eaef532c9d40c6ada0374a33d50443a738357aef.png

数据入库

一顿操作猛如虎,数据就到手了~后面可以做一些简单的数据分析,那篇博客再见啦@

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值