Scrapy爬虫框架搭建

因为对爬虫有一定的兴趣,所以这两天一直在钻研Scarpy框架,现在马马虎虎总算完成了,整体上结果还是不错的,现在在这里给大家总结一下,有什么错误也希望大家可以指出!!
首先上图:工作原理示例图
工作原理图
搭建环境
开发软件:pycharm
开发环境:python3.6+Scrapy 我用的anaconda装的,anaconda相对来说还是比较好用的

安装配置
首先开始安装scrapy 直接在命令行下 pip install scrapy 如果安装错误的话先下载一个Twisted-18.7.0-cp36-cp36m-win_amd64.whl 这个文件 然后用pip进行安装 完事之后再重新安装scrapy就不会报错了 安装完之后 import scrapy 运行一下看看有没有报错 没有报错的话就是安装成功了
开始搭建
因为我是在anaconda下安装的 所以进到anaconda的命令行中 输入scrapy startproject 项目名 开始新建一个爬虫项目 ,如下图
这是新建后的文件夹
然后再执行scrapy genspider minimp4 minimp4.com 会在spiders下建立一个minimp4.py文件 ,minimp4.com 这是你要爬虫的域名,其中items.py文件这里面存放的是结构框架,例如你爬一个电影网站的名字,最后需要传一个电影的Name ,在这里面定义name就可以了,setting.py文件里面存放的是配置文件,爬虫是否遵循网络协议,或者把文件进行保存都是在这里面需要修改的,pipelines.py 见名识意,也就是管道的意思,里面一般分为三部分,爬虫开始,爬虫开始以及爬虫开始,爬完之后数据放到哪都是在这里面进行的,而middlewares.py文件我自己理解的就是存放的是爬虫过程中的日志文件或者是进程文件,也不太重要,方正我自己没用到,然后最最重要的就是在spiders目录下的minimp4.py文件,里面存放的就是你需要爬虫的项目的网址,以及网页代码的解析和响应,不多说上代码,有那点不懂的可以给我留言,重要代码已经写了注释,代码如下图
minimp4文件
然后完成之后,打开anaconda命令,转到scrapy爬虫的主项目下 运行 scrapy list 会显示你这个文件夹下的scrapy项目名称(我的出不来,也不知道为啥,但不影响),然后在进行scrapy check 这个是用来检查scrapy项目逻辑错误的,如果全部正确,会提示如下图

shell命令
然后通过scrapy crawl minimp4 开始运行爬虫框架,成功后如下图
成功返回
然后你去查看文件可能没有 ,这时不是代码有问题,需要把setting.py 里面的读取文件方法
注释给取消掉,这时在运行一遍就可以了,打开文件如下图所示效果展示

最后附上源代码下载地址:https://github.com/wangfaya/yuanma TestDemo 直接down到本地就可以跑着玩玩了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值