话不多说先上代码:爬取人民日报
下面一步一步的介绍整个scrapy的架构
首先我们要先下载scrapy框架,这里解释一下框架和库的区别:框架是一种有别于软件,但是面向开发者的一种工具,是一种产品的形式,而库则只是一种代码的集合。
下载scrapy:
pip install scrapy
这里使用的python版本是Python3.5,有些同学在装scrapy的时候可能会报miss c++ 14.0的错误,这里解决方法就是缺少Twisted这个依赖,这里需要自己去这里下载并安装这个依赖
安装好以后我们就进入正题。
首先,我们要新建一个目录:
scrapy startproject myspider
然后进入这个目录并新建一个爬虫文件:
scrapy genspider -t spidername domain.com#这里的domain是你要爬取的网页域名可加可不加
下面我们可以看下文件目录
其中item.py定义了你需要爬取的数据类型,spiders目录里面是你的爬虫,setting中是一些配置信息,pipelines.py中是爬取到的item的存储方式。
下面让我们先看一下spiders目录中我们最关心爬虫部分:
话不多说上代码:
from scrapy.spiders i