scrapy使用代理报错keyerror: proxy_?一文搞懂爬虫框架scrapy,从此入坑到入土在到化蝶成仙...

本文介绍了如何使用Scrapy框架搭建爬虫项目,包括安装、创建项目和爬虫,以及中间件中代理设置的注意事项。在Windows环境下,特别提醒了安装pypiwin32的步骤,避免启动报错。通过实例展示了创建Scrapy爬虫的基本流程,为初学者提供了清晰的入门指南。
摘要由CSDN通过智能技术生成

之前我有和大家介绍过scrapy的安装方法,今天我们从建立项目到scrapy 爬虫,爬取极品笑话大全,从头到尾的来一遍。

一,Scrapy框架的安装:

1.首先是简单的pip安装,pip install scrapy 即可安装,

2.如果是在windous 下下定记得安装 pypiwin32,要不打开会报错,

3.安装pypiwin32,pip install pypiwin32,

二 ,创建项目和爬虫:

1,创建项目:scrapy startproject jipinspider ,

c0b66c863c72dddcaa31dbab6c1e2a94.png

回车之后得到scrapy 项目 文件目录

cd2780cd2b2eb72f64581e01db3dfea5.png

生成了jipin_spider 文件夹,还有scrapy.cfg日志目录,这样一个scrapy 项目建立完成,是不是很简单,也很嗨皮。

2,创建scrapy 爬虫,上面项目jipin_spider 创建成功了之后, 我们就要在项目文件里创建一个极品笑话大全的爬虫,所以cd 到jipin_spider 目录下,

2878a9b13c7383ad0490a3d4d9c9458d.png

用命令scrapy genspider [爬虫名字] [爬取的域名] :比如我们今天要爬取的

scrapy genspider jp_spider[域名],注意爬虫名字不能和项目名字一致。

b488fb44c83be06a63bea0d4b7af9332.png

显示这样的就是成功创建了scrapy 爬虫,打开文件夹

b099e6979d6e04b92093cc32487d0b02.png

1,我们主要关注的是spiders文件夹,存储爬虫代码文件夹,

2,itms.py文件,项目目标配置文件,

3,middlewares.py 中间健编写,就是一些反扒措施,比如浏览器模拟,ip代理反扒这些,都在中间件里编写,

4,pipelines.py,这个是项目的管道文件,我们在实操中在作解释,

5,settings.py,项目的设置

这样我们的一个极品笑话大全的scrapy 爬虫项目创建到爬虫创建就这们完成了,

其实这个也不是那么的难,我们从简单开始,接下来就是对里面的文件进行一些配置,

这个们用两个课程来完成它,因为接下来的内容篇幅比较大。由于我的文笔不是那么好,有喜欢python爬虫数据分析的 朋友门关注我们一起学习成长。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值