上次介绍了Scrapy爬虫网络数据的最简单的使用,今天我们来看看如何用工程或者项目来进行网络爬虫。
首先我们需要创建一个项目。
scrapy startproject douban_book
在命令行输入scrapy startproject + [项目名],这样会生成一个scrapy项目。我这个项目的名称是douban_book。大家一看这个名字就知道,我待会要去爬取豆瓣网站图书的内容。
我们来简单看一下该项目的目录结构
我们真正的爬虫程序是写在spiders/bookspider.py文件中的,bookspider.py是我自己创建的文件,其他的文件都是scrapy自己
自动初始化好的。其中item.py是配置爬虫具体返回的数据,待会我们在具体的例子中会看到如何定义自己需要返回的东西;pipeline.py
是配置具体的通道信息,这个我们会在下一篇文章中提到;settings.py是设置信息,爬虫大部分的配置信息都要在该文件中进行。
首先我们先编写item.py文件,该文件设置爬虫具体的返回数据。
# -*- coding: utf-8 -*-
# Define here the models for your scraped ite