2019-12-17 爬网页11-scrapy初学爬猫眼(requests+lxml+fake_useragent+multiprocessing)

本文介绍了使用Scrapy框架爬取猫眼电影数据的初步步骤,包括Scrapy模块的下载、项目创建及应用生成。通过scrapy startproject命令创建项目,然后通过scrapy genspider命令生成爬虫,适用于Python 2.7环境下的Windows 10用户进行网站数据抓取。
摘要由CSDN通过智能技术生成

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

自学参见
英文网站
中文网站

我的环境,Win10中文+py2.7

step1.scrapy模块下载

pip install scrapy

step2.创建项目

命令格式如下

scrapy startproject 项目名称

尝试执行一下

C:\>scrapy startproject mySpider
New Scrapy project 'mySpider', using template directory 'c:\python27\lib\site-packages\scrapy\templates\project', created in:
    C:\mySpider

You can start your first spider with:
    cd mySpider
    scrapy genspider example example.com

执行完这一步后,自动创建主目录mySpider,在主目录中scrapy会创建以下内容

mySpider\
	scrapy.cfg  -->项目的主配置信息。(真正爬虫相关的配置信息在setti
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值