用Scrapy简单爬取jobbele所有技术文章。

本文介绍了如何在Windows 10环境下,使用Python 3.6和PyCharm,通过Scrapy框架爬取jobbole博客的所有技术文章。首先,通过国内镜像安装Scrapy和pypiwin32库。接着分析目标网站,确定文章入口URL和翻页方法。文章内容包括提取文章标题、日期等信息,并在Scrapy的shell中进行调试。最后提到需要将抓取的数据存储,为后续入库做准备。
摘要由CSDN通过智能技术生成

用国内镜像安装,


安装scrapy,

pip install -i http://pypi.douban.com/simple scrapy

pip install -i http://pypi.douban.com/simple pypiwin32

安装以上2个库就能正常运行scrapy了


环境:

win10-64

python3.6

开发工具:pycharm


首先分析目标网站:

http://blog.jobbole.com/



然后我们打开开发者工具看下所有的文章的入口URL是保存在哪个标签里.

根据观察发现:


由上图可见,我们已经知道了应该走哪进入相关文章的列表,那么我们再看看翻页怎么去实现,有两个方法,

一个是 for page in rang(n),但是我们怎么知道今天553页,但是明天是否还是553呢?所以这个方法排除.

另外一个方法,还是走网页里找答案.

好了,我们翻页的方法页找到了,那么.我们进入文章看看,有哪些关键的信息可以给我们提取的,随便点击一篇文章进行分析。

就爬这些吧,如果有别的需求,也可以增加对吧,然后 我们打开别的文章看看,有什么不一样的地方.

另外一篇文章里面,多出来了重复的消息!!因为我们本来就要抓评论数.所以,这个东西我们需要在代码里面把他去除.

我们现在分析,我们所需要的东西都网页的哪些位置以及什么关键字!!方便我们后面写代码!还是老办法,F12开发者工具走起!


其它元素就自己找了!下面我们用scrapy提供的调试工具开始调试我们所需要的代码.

WIN+R键打开运行,

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值