安装使用Scrapy

Scrapy运行流程大概如下:

  1. 引擎从调度器中取出一个链接(URL)用于接下来的抓取

  2. 引擎把URL封装成一个请求(Request)传给下载器

  3. 下载器把资源下载下来,并封装成应答包(Response)

  4. 爬虫解析Response

  5. 解析出实体(Item),则交给实体管道进行进一步的处理

  6. 解析出的是链接(URL),则把URL交给调度器等待抓取

 

  1、安装wheel

        pip install wheel

    2、安装lxml

        https://pypi.python.org/pypi/lxml/4.1.0

    3、安装pyopenssl

        https://pypi.python.org/pypi/pyOpenSSL/17.5.0

    4、安装Twisted

        https://www.lfd.uci.edu/~gohlke/pythonlibs/

    5、安装pywin32

        https://sourceforge.net/projects/pywin32/files/

    6、安装scrapy

        pip install scrapy

 

  • scrapy.cfg  项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)

  • items.py    设置数据存储模板,用于结构化数据,如:Django的Model

  • pipelines    数据处理行为,如:一般结构化的数据持久化

  • settings.py 配置文件,如:递归的层数、并发数,延迟下载等

  • spiders      爬虫目录,如:创建文件,编写爬虫规则

 

1.创建一个工程:

scrapy startproject movie

查看scrapy startproject -h 这条命令的help

带有打印日志的项目创建:

scrapy startproject --logfile=DEBUG movie

scrapy startproject --nolog movie

 

2.创建爬虫程序

cd movie

scrapy genspider meiju meijutt.com

在spider中创建一个meiju.py的文件,网址为http://meijutt.com

meiju是文件名创建在spiders文件夹中,meijutt.com是需要爬的网站名

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值