scrapy微博反爬虫_Python爬虫【四】Scrapy+Cookies池抓取新浪微博

本文介绍了使用Scrapy爬取新浪微博的方法,包括设置ROBOTSTXT_OBEY、DEFAULT_REQUEST_HEADERS,定义start_requests方法,构造请求并利用CookiesMiddleware中间件随机获取cookies,处理请求和响应,以及解析网页内容和存储数据到MongoDB的过程。
摘要由CSDN通过智能技术生成

1.设置ROBOTSTXT_OBEY,由true变为false

2.设置DEFAULT_REQUEST_HEADERS,将其改为request headers

3.根据请求链接,发出第一个请求,设置一个start_request方法,并在方法中定义相关的配置,比如在本例中设置搜索的关键字keyword

4.接下来定义一个链接,也就是start_url,本例中改为search_url,其中把base_url定义为该类的全局变量,后面的参数用于翻页设置等

5.根据网页源码中的Form Data,定义一些其他的要求,比如本例中的最大页码数

6.在start_requests方法中,构造请求url的可变参数部分,search_url和keyword部分,用formate()传入

7.因为最大页数为100,接下来需要构造100个请求,利用for循环,page从1-100进行遍历

8.在for循环中把Form Data传过去,mp就是max_page,把mp和page都转换成字符串的形式

9.生成post请求,这里用FormRequest来构造,第一个参数就是构造的url,回调函数是网页解析方法parse_index函数,formdata直接赋值为data

10.借助cookie池,从中随机取出一个cookie赋值给request,所以接下来在middleware里面定义一个中间件,定义一个CookiesMiddleware类

11.在类中改写请求,定义一个process_request方法,在对request进行改写,先要拿到cookies

12.在类中定

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值