终于发了起点小说爬取的姊妹篇,scrapy小说爬取,到现在这种方式还不是十分理解,但还是试了,也试出了一些成果,那么,现在进入正题
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。(好吧,这是我抄的),操作过程大概是要先建立一个项目,就像这样,在命令提示符中进入到所需要的文件夹中,键入scrapy startproject +你想要将项目命名的名字
然后就会在目的文件夹中发现
打开后会发现是这样的结构
tutorial/ scrapy.cfg tutorial/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py ...结构及其对应功能(摘自scrapy官方文本)
scrapy.cfg
: 项目的配置文件tutorial/
: 该项目的python模块。之后您将在此加入代码。tutorial/items.py
: 项目中的item文件.tutorial/pipelines.py
: 项目中的pipelines文件.tutorial/settings.py
: 项目的设置文件.tutorial/spiders/
: 放置spider代码的目录.