首先我们想要使用scrapy框架。我们先创建一个scrapy框架的工程文件在pycharm编辑器中的终端输入 :scrapy startproject (固定写法) 自己在随便想个文件名 。 如图下
然后按回车健指令终端会显示创建成功。如下图
当scrapy框架工程创建成功后在你的pycharm编辑器项目列表里找到你的文件名
我们打开创建的工程里面有几个文件这些都是 scrapy框架。的配置文件有了配置文件还不够我们还要自己创建一个爬虫文件。而且要创建到spiders目录下面 (注意spiders文件在你创建scrap工程的是会自动帮你创建不需要你自己额外创建 )那么我怎么创建爬虫文件到spiders当中呢? 我们在终端输入 : cd 加你刚刚创建的文件名 如图下
然后创建爬虫文件在终端输入: scrapy genspider (固定写法) 在自己取给名称 随便加个网页域名
我们打开创建好的文件,这里有个报红的一小段不用管他。如图下
我们接着来看我们创建的爬虫文件里代码进行讲解 : 图上第4行有个类开头一般都是 (文件名 + spider)然后往后看
(scrapy.Spider) scrapy是Spider中的一个类 而 spider是scrapy的一种类
第5行 name 就不用我多说了吧 就是文件名
第6行就是允许的域名 一般在写爬虫的时候直接加干掉就行了 用处非常少 #
第7行你想放多少网页域名都可以
第8行将你的start_urls中的网页域名全部发起请求 我们来试试。拿百度为例。
结果发现没有请求成功而是被屏蔽了 。那是因为我们遵守了ROBOTSTXT_OBEY协议所以我们要修改一下协议 ( 入 狱 警 告 )
打开settings这个文件
找到ROBOTSTXT_OBEY协议改为:False 就行了
我们再次在终端运行刚刚的代码
这时没有发现被屏蔽说明请求成功了 。 注意学习时可以不遵守ROBOTSTXT_OBEY协议
新手入门 大佬勿喷