scrapy框架的基本用法

会飞的鸟ア

于 2024-03-09 22:09:07 发布

阅读量362

点赞数 9

文章标签： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aa26916649/article/details/136592126

版权

本文详细介绍了如何安装Scrapy框架，创建项目及其组成部分，包括items.py（数据模型）、middlewares.py（请求处理）、pipelines.py（数据处理）、settings.py（配置）和spiders（爬虫）。还演示了如何在PyCharm终端执行scrapy爬虫。

摘要由CSDN通过智能技术生成

scrapy框架的基本用法

一、安装scrapy框架

按下win+r打开命令行输入cmd之后输入pip install scrapy，之后还需安装一个模块否者会影响scrapy的正常使用。
安装pywin32模块pip install pywin32 如果出现报错可在百度上寻找镜像网站。

二、创建scrapy项目

在pycharm的终端（terminal）中输入以下命令：

scrapy startproject myspider

之后依次输入：

 cd myspider
    scrapy genspider example example.com

注：cd是切盘的意思，myspider是自己项目的名字，example是网站名字，example.com是在网址后面跟上的域名。

三、创建出来的程序的作用

**items.py：**定义了用于存储爬取数据的数据模型，即Item类。每个Item类对应爬取的一种数据结构。（定义了爬取数据的模样）

2.middlewares.py：

类似于请求和响应的加工厂，可以在发送请求前或处理响应后进行一些处理，比如修改请求头或代理。

3.init.py：

一个空文件，用于将包目录标识为Python包。

4.pipelines.py：

就像一个处理流水线，用于接收爬虫爬取到的数据，并执行保存或处理的操作，比如存储到数据库。

5.scrapy.cfg：

项目的配置文件，包含Scrapy项目的配置信息，如项目名称、模块路径等。

6.spiders/目录：

包含一个或多个爬虫的Python文件。每个爬虫文件定义了如何爬取特定网站的规则和逻辑。

7.settings.py：
包含项目的设置信息，如爬虫速度、并发数、User-Agent等配置。

四、执行scrapy框架

可在pycharm的终端（terminal）中运行
也可在创建一个py文件用这个程序作为启动程序，在其中输入以下代码即可
```
 from scrapy import cmdline
cmdline.execute(['scrapy','crawl','lianjia','--nolog'])
```

注：如有错误之处请各位大佬不吝赐教

会飞的鸟ア

关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
scrapy框架的基本用法

创建scrapy框架以及运行
复制链接

扫一扫

会飞的鸟ア CSDN认证博客专家 CSDN认证企业博客

码龄1年

2: 原创

181万+: 周排名

19万+: 总排名

501: 访问

: 等级

40: 积分

7: 粉丝

19: 获赞

0: 评论

10: 收藏

私信

关注

热门文章

最新评论

scrapy框架的基本用法
CSDN-Ada助手: 恭喜你开始博客创作！对于scrapy框架的基本用法的介绍很详细，让我受益匪浅。希望你能够继续分享更多关于scrapy框架的知识，比如高级用法或者实际案例的应用。也可以考虑和其他框架进行对比，或者分享一些自己的学习心得体会。期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

【帮助忘记mysql原密码的小伙伴修改密码】

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。