怎么从网页里取数据请查看。
这次介绍把数据存储到CSV文件里。
一、修改items.py文件
把需要获取的数据定义在这里,增加两行。
class DoubanxsItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
name = scrapy.Field() # 书名
author = scrapy.Field() # 作者
pass
二、从spider里获取数据
首先把item加载进来。
from doubanxs.items import DoubanxsItem
然后获取数据并返回,详细如下:
三、修改settings.py文件
添加如下三行:
FEED_URI = r'file:///d://tmp/doubanxs.csv' # 存储路径
FEED_FORMAT = 'CSV' # 存储格式
FEED_EXPORT_ENCODING = 'gbk' # 存储编码。因为CSV默认是GBK格式。
四、执行spider
scrapy crawl doubanxs
五、打开CSV文件