Scrapy入门必知的操作

最新推荐文章于 2024-08-04 13:54:17 发布

milk_and_bread

最新推荐文章于 2024-08-04 13:54:17 发布

阅读量145

点赞数

分类专栏：后端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/milk_and_bread/article/details/96733343

版权

后端专栏收录该内容

50 篇文章 1 订阅

订阅专栏

一、安装

1、安装scrapy

2、安装库文件(在Windows的情况下安装，其他系统也需要安装第三方库)

二、创建项目

1、创建工程（scrapy startproject [爬虫名字]）

2、生成特定域名的爬虫（scrapy genspider [爬虫名字] 【域名】）

3、运行项目（scrapy crawl [爬虫名]）

注：（1）这里的爬虫名，跟自己定义爬虫类的属性名相一致

（2）crawl命令参数只能在项目中使用scrapy命令

三、项目结构

item.py：存放爬虫爬取数据模型

middlewars.py:存放中间件文件

pipelines.py：将items的模型存储到本地磁盘

settings.py：本爬虫的一些配置信息

scrapy.cfg:项目的配置文件

spiders包：以后所有爬虫存放在此

四、模拟人登录

配置随机user-agent以及基础反爬配置：https://www.cnblogs.com/c-x-a/p/9889623.html

五、CrawkSpider

创建工程不同之处在于，生成爬虫命令（其中wxapp为工程名）

六、scrapy框架的示意图

七、scrapy常用命令

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。