网络爬虫之 scrapy框架入门的基本使用

最新推荐文章于 2024-09-29 20:43:01 发布

*低调*

最新推荐文章于 2024-09-29 20:43:01 发布

阅读量120

点赞数

文章标签： pycharm python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_57222111/article/details/120059336

版权

首先我们想要使用scrapy框架。我们先创建一个scrapy框架的工程文件在pycharm编辑器中的终端输入：scrapy startproject （固定写法）自己在随便想个文件名。如图下

然后按回车健指令终端会显示创建成功。如下图

当scrapy框架工程创建成功后在你的pycharm编辑器项目列表里找到你的文件名

我们打开创建的工程里面有几个文件这些都是 scrapy框架。的配置文件有了配置文件还不够我们还要自己创建一个爬虫文件。而且要创建到spiders目录下面（注意spiders文件在你创建scrap工程的是会自动帮你创建不需要你自己额外创建）那么我怎么创建爬虫文件到spiders当中呢？我们在终端输入 : cd 加你刚刚创建的文件名如图下

然后创建爬虫文件在终端输入： scrapy genspider (固定写法) 在自己取给名称随便加个网页域名

我们打开创建好的文件，这里有个报红的一小段不用管他。如图下

我们接着来看我们创建的爬虫文件里代码进行讲解：图上第4行有个类开头一般都是（文件名 + spider）然后往后看

（scrapy.Spider）  scrapy是Spider中的一个类 而 spider是scrapy的一种类

第5行 name 就不用我多说了吧就是文件名

第6行就是允许的域名一般在写爬虫的时候直接加干掉就行了用处非常少 #

第7行你想放多少网页域名都可以

第8行将你的start_urls中的网页域名全部发起请求我们来试试。拿百度为例。

结果发现没有请求成功而是被屏蔽了。那是因为我们遵守了ROBOTSTXT_OBEY协议所以我们要修改一下协议（入狱警告）

打开settings这个文件

找到ROBOTSTXT_OBEY协议改为：False 就行了

我们再次在终端运行刚刚的代码

这时没有发现被屏蔽说明请求成功了。注意学习时可以不遵守ROBOTSTXT_OBEY协议

新手入门大佬勿喷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

*低调* CSDN认证博客专家 CSDN认证企业博客

码龄3年

1: 原创

153万+: 周排名

226万+: 总排名

120: 访问

: 等级

11: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

网络爬虫之 scrapy框架入门的基本使用 120

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。