用国内镜像安装,
安装scrapy,
pip install -i http://pypi.douban.com/simple scrapy
pip install -i http://pypi.douban.com/simple pypiwin32
安装以上2个库就能正常运行scrapy了
环境:
win10-64
python3.6
开发工具:pycharm
首先分析目标网站:
http://blog.jobbole.com/
然后我们打开开发者工具看下所有的文章的入口URL是保存在哪个标签里.
根据观察发现:
由上图可见,我们已经知道了应该走哪进入相关文章的列表,那么我们再看看翻页怎么去实现,有两个方法,
一个是 for page in rang(n),但是我们怎么知道今天553页,但是明天是否还是553呢?所以这个方法排除.
另外一个方法,还是走网页里找答案.
好了,我们翻页的方法页找到了,那么.我们进入文章看看,有哪些关键的信息可以给我们提取的,随便点击一篇文章进行分析。
就爬这些吧,如果有别的需求,也可以增加对吧,然后 我们打开别的文章看看,有什么不一样的地方.
另外一篇文章里面,多出来了重复的消息!!因为我们本来就要抓评论数.所以,这个东西我们需要在代码里面把他去除.
我们现在分析,我们所需要的东西都网页的哪些位置以及什么关键字!!方便我们后面写代码!还是老办法,F12开发者工具走起!
其它元素就自己找了!下面我们用scrapy提供的调试工具开始调试我们所需要的代码.
WIN+R键打开运行,