Scrapy爬虫框架搭建

最新推荐文章于 2023-05-12 15:16:33 发布

csdn_Home_Chen

最新推荐文章于 2023-05-12 15:16:33 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/qq_42851114/article/details/81390816

版权

因为对爬虫有一定的兴趣，所以这两天一直在钻研Scarpy框架，现在马马虎虎总算完成了，整体上结果还是不错的，现在在这里给大家总结一下，有什么错误也希望大家可以指出！！
首先上图：工作原理示例图
工作原理图
搭建环境
开发软件：pycharm
开发环境：python3.6+Scrapy 我用的anaconda装的，anaconda相对来说还是比较好用的

安装配置
首先开始安装scrapy 直接在命令行下 pip install scrapy 如果安装错误的话先下载一个Twisted-18.7.0-cp36-cp36m-win_amd64.whl 这个文件然后用pip进行安装完事之后再重新安装scrapy就不会报错了安装完之后 import scrapy 运行一下看看有没有报错没有报错的话就是安装成功了
开始搭建
因为我是在anaconda下安装的所以进到anaconda的命令行中输入scrapy startproject 项目名开始新建一个爬虫项目，如下图
这是新建后的文件夹
然后再执行scrapy genspider minimp4 minimp4.com 会在spiders下建立一个minimp4.py文件，minimp4.com 这是你要爬虫的域名，其中items.py文件这里面存放的是结构框架，例如你爬一个电影网站的名字，最后需要传一个电影的Name ，在这里面定义name就可以了，setting.py文件里面存放的是配置文件，爬虫是否遵循网络协议，或者把文件进行保存都是在这里面需要修改的，pipelines.py 见名识意，也就是管道的意思，里面一般分为三部分，爬虫开始前，爬虫开始中以及爬虫开始后,爬完之后数据放到哪都是在这里面进行的，而middlewares.py文件我自己理解的就是存放的是爬虫过程中的日志文件或者是进程文件，也不太重要，方正我自己没用到，然后最最重要的就是在spiders目录下的minimp4.py文件，里面存放的就是你需要爬虫的项目的网址，以及网页代码的解析和响应，不多说上代码，有那点不懂的可以给我留言，重要代码已经写了注释，代码如下图
minimp4文件
然后完成之后，打开anaconda命令，转到scrapy爬虫的主项目下运行 scrapy list 会显示你这个文件夹下的scrapy项目名称（我的出不来，也不知道为啥，但不影响）,然后在进行scrapy check 这个是用来检查scrapy项目逻辑错误的，如果全部正确，会提示如下图