利用Python的scrapy框架爬取手游排行前几名的手游信息

初学scrapy框架

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

有关于scrapy的教学与基础知识这里不做解释,感兴趣的同学可以去访问

http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html(此为中文教程,版本有点过时,但语法基本相同)

接下来进入正题:

所用的版本为Python3.6.1  scrapy为1.4.0

次篇实例会用到xpath(可在此网站学习http://www.runoob.com/xpath/xpath-syntax.html)与正则表达式,如果对其不了解的同学,建议先学

1、建立一个scrapy工程(此命令在dos下输入)

scrapy startproject AppGame

然后cd AppGame

2、在\AppGame\AppGame\spiders的目录下建立一个文件Appgame.py,此为spider文件,也就是定义爬虫的爬取规则的文件

代码如下:

'''
please in here defined yours spider
define crawler rules


'''
import scrapy

#下为导入的item类,后面会讲到
from  AppGame.items import  AppgameItem


class Myfilm(scrapy.Spider):
    name="game"

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值