Scrapy作为爬虫利器,是一个很好的Pyhon爬虫框架,现在也已经支持Python3了。具体的安装过程可以参考:http://www.yiibai.com/scrapy/scrapy_environment.html 。关于srapy的具体介绍,可以参考网址:https://docs.scrapy.org/en/latest/ 。
本文将介绍一个极为简单的例子,通过该例子来帮读者快速进入scrapy的世界,并会持续更新,做进一步的深入研究。本文的scrapy版本为1.0.3-1,python版本为2.7.12.
我们要爬取的页面为菜鸟教程的Git教程目录,如下图:
这里写图片描述
首先我们先在当前目录下新建一个scrapy项目:scrapy_git,在终端输入如下命令:
scrapy startproject scrapy_git
再输入tree scrapy_git查看文件的树状结构:
树状结构
接着切换到spider目录,并新建文件:git_jc.py,代码如下:
import scrapy
class ToScrapeCSSSpider(scrapy.Spider):
name = "toscrape-css"
start_urls =