初学scrapy框架
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
有关于scrapy的教学与基础知识这里不做解释,感兴趣的同学可以去访问
http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html(此为中文教程,版本有点过时,但语法基本相同)
接下来进入正题:
所用的版本为Python3.6.1 scrapy为1.4.0
次篇实例会用到xpath(可在此网站学习http://www.runoob.com/xpath/xpath-syntax.html)与正则表达式,如果对其不了解的同学,建议先学
1、建立一个scrapy工程(此命令在dos下输入)
scrapy startproject AppGame
然后cd AppGame
2、在\AppGame\AppGame\spiders的目录下建立一个文件Appgame.py,此为spider文件,也就是定义爬虫的爬取规则的文件
代码如下:
'''
please in here defined yours spider
define crawler rules
'''
import scrapy
#下为导入的item类,后面会讲到
from AppGame.items import AppgameItem
class Myfilm(scrapy.Spider):
name="game"