网络爬虫之 scrapy框架入门的基本使用

首先我们想要使用scrapy框架。我们先创建一个scrapy框架的工程文件在pycharm编辑器中的终端输入 :scrapy startproject   (固定写法) 自己在随便想个文件名 。 如图下   

 然后按回车健指令终端会显示创建成功。如下图

 当scrapy框架工程创建成功后在你的pycharm编辑器项目列表里找到你的文件名

 我们打开创建的工程里面有几个文件这些都是 scrapy框架。的配置文件有了配置文件还不够我们还要自己创建一个爬虫文件。而且要创建到spiders目录下面  (注意spiders文件在你创建scrap工程的是会自动帮你创建不需要你自己额外创建   )那么我怎么创建爬虫文件到spiders当中呢? 我们在终端输入 :   cd   加你刚刚创建的文件名   如图下

 然后创建爬虫文件在终端输入: scrapy   genspider (固定写法)    在自己取给名称  随便加个网页域名

我们打开创建好的文件,这里有个报红的一小段不用管他。如图下 

 

 我们接着来看我们创建的爬虫文件里代码进行讲解   :  图上第4行有个类开头一般都是   (文件名 + spider)然后往后看

(scrapy.Spider)  scrapy是Spider中的一个类 而 spider是scrapy的一种类

第5行   name   就不用我多说了吧    就是文件名 

第6行就是允许的域名 一般在写爬虫的时候直接加干掉就行了 用处非常少  #

第7行你想放多少网页域名都可以

第8行将你的start_urls中的网页域名全部发起请求   我们来试试。拿百度为例。

 结果发现没有请求成功而是被屏蔽了  。那是因为我们遵守了ROBOTSTXT_OBEY协议所以我们要修改一下协议         (       入        狱               警          告         )

 

 打开settings这个文件

 

找到ROBOTSTXT_OBEY协议改为:False  就行了

 我们再次在终端运行刚刚的代码

 这时没有发现被屏蔽说明请求成功了         。 注意学习时可以不遵守ROBOTSTXT_OBEY协议

                                                                                                                                                    新手入门       大佬勿喷

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值