Python使用scrapy框架小结

本文章主要介绍scrapy的基本使用方法,介绍框架结构及安装。

1  整个项目的构成

2   一个完整的项目设计四个python文件的编写,分别是items.pyqutoes_spider.pyscrapy genspider qutoes_spider.py jycinema.com后生成,非系统自带)、settings.py、pipelines.py

四个文件对应2个HOW、1个what、1个who,即是

items-->how :定义要爬取哪些项目(取个要爬取的内容的名字)

wuhanSpider.py->HOW :阐述怎么爬取,即怎么从html代码中取数据

settings-->who:定义由谁保存经处理后的爬取的内容,一般是由pipelines模块中的一个类

pipelines->HOW:怎样去保存爬取到的内容,是导出到txt文件呀?还是数据库呀?

3 scrapy常用命令

1 创建项目 scrapy startproject [项目名]
2 根据预设模板创建爬虫文件 scrapy genspider [爬虫名] [域名]
3 运行爬虫 scrapy crawl [爬虫名]

4 安装scrapy
scrapy依赖包较多,有些包用c写的需要vc编译器。

方法一:anaconda, 自带上千种编译好的科学计算相关包。优点自带编译后的scrapy。缺点:体积大,下载包300m,安装一个多G。主要是科学计算领域,大多数包用不上,flask django又没有需要新下。miniconda是anaconda的精简版本。版本有限。缺少.net会导致无报错失败。
方法二(推荐):pip install scrapy   哪些包报错需要vc编译器的,再单独去发布编译后的包的网站下载对应平台编译后的.whl文件安装。
参考链接:
1. 安装twisted。第三方编译后包的网站 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted。
2. 安装scrapy。图文教程 https://www.1owo.com/python/python/python-scrapy%E5%AE%89%E8%A3%85%E4%B9%8Bwindows%E7%8E%AF%E5%A2%83%E4%B8%8B/
3. 执行安装过pywin32的脚本。

报错:
1. 安装twisted.whl时拒绝访问。解决,使用管理员权限的终端。
2. 运行scrapy crawl时报错win32。解决,上面博客图文教程中选做步骤改为必做,py32脚本也需要安装。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值