Python使用scrapy框架小结

最新推荐文章于 2024-06-20 21:40:49 发布

qq_41277632

最新推荐文章于 2024-06-20 21:40:49 发布

阅读量229

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41277632/article/details/87866665

版权

本文章主要介绍scrapy的基本使用方法，介绍框架结构及安装。

1 整个项目的构成

2 一个完整的项目设计四个python文件的编写，分别是items.py、qutoes_spider.py（scrapy genspider qutoes_spider.py jycinema.com后生成，非系统自带）、settings.py、pipelines.py

四个文件对应2个HOW、1个what、1个who,即是

items-->how :定义要爬取哪些项目（取个要爬取的内容的名字）

wuhanSpider.py->HOW :阐述怎么爬取，即怎么从html代码中取数据

settings-->who:定义由谁保存经处理后的爬取的内容，一般是由pipelines模块中的一个类

pipelines->HOW:怎样去保存爬取到的内容，是导出到txt文件呀?还是数据库呀？

3 scrapy常用命令

1 创建项目 scrapy startproject [项目名]
2 根据预设模板创建爬虫文件 scrapy genspider [爬虫名] [域名]
3 运行爬虫 scrapy crawl [爬虫名]

4 安装scrapy
scrapy依赖包较多，有些包用c写的需要vc编译器。

方法一：anaconda, 自带上千种编译好的科学计算相关包。优点自带编译后的scrapy。缺点：体积大，下载包300m，安装一个多G。主要是科学计算领域，大多数包用不上，flask django又没有需要新下。miniconda是anaconda的精简版本。版本有限。缺少.net会导致无报错失败。
方法二(推荐)：pip install scrapy 哪些包报错需要vc编译器的，再单独去发布编译后的包的网站下载对应平台编译后的.whl文件安装。
参考链接：
1. 安装twisted。第三方编译后包的网站 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted。
2. 安装scrapy。图文教程 https://www.1owo.com/python/python/python-scrapy%E5%AE%89%E8%A3%85%E4%B9%8Bwindows%E7%8E%AF%E5%A2%83%E4%B8%8B/
3. 执行安装过pywin32的脚本。

报错：
1. 安装twisted.whl时拒绝访问。解决，使用管理员权限的终端。
2. 运行scrapy crawl时报错win32。解决，上面博客图文教程中选做步骤改为必做，py32脚本也需要安装。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python使用scrapy框架小结

本文章主要介绍scrapy的基本使用方法，介绍框架结构及安装。1 整个项目的构成2 一个完整的项目设计四个python文件的编写，分别是items.py、qutoes_spider.py（scrapy genspider qutoes_spider.py jycinema.com后生成，非系统自带）、settings.py、pipelines.py四个文件对应2个HOW、1个...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。