Scrapy框架采集微信公众号数据，Python大佬机智操作绕过反爬验证码

最新推荐文章于 2024-06-05 13:46:35 发布

Python_sn

最新推荐文章于 2024-06-05 13:46:35 发布

阅读量1.3k

点赞数

文章标签： python Python爬虫网络爬虫 Python编程编程语言

本文链接：https://blog.csdn.net/Python_sn/article/details/109358113

版权

前情提要

此代码使用scrapy框架爬取特定“关键词”下的搜狗常规搜索结果，保存到同级目录下csv文件。并非爬取微信公众号文章，但是绕过验证码的原理相同。如有错误，希望大家指正。

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！??¤
QQ群：623406465

URL结构

https://www.sogou.com/web?query={关键词}&page={n}

开始爬取

scrapy常规操作就不唠叨了，上代码

class SougouSearchSpider(scrapy.Spider):
    name = 'sogou_search'
    allowed_domains = ['www.sogou.com']
    start_urls = ['https://www.sogou.com/web?query=python&page=1']

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url=url,
                                 callback=self.parse)

一顿操作后，发现刚爬了3页，就停止了。报错如下

2020-06-11 16:05:15 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET http://www.sogou.com/antispider/?from=%2Fweb%3Fquery%3Dpython%26page%3D7%26ie%3Dutf8&suuid=6969bcac-7309-410c-b2f0-67d2e882e8a5&m=1> from <GET https://www.sogou.com/web?query=python&page=4&ie=utf8>

应该访问的第四页被302重定向到了antispider反爬虫的验证码界面

看到这里，我们采取一下常规措施：
1.更换动态IP
2.伪装header
3.硬刚破解验证码

一步一步来，我们先更换IP。这里我使用的是使用Redis的免费代理IP池：ProxyPool，Github地址。非常nice，代码十分简练。

import requests
proxypool_url = 'http://127.0.0.1:5555/ra

最低0.47元/天解锁文章

Python_sn

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Scrapy框架采集微信公众号数据，Python大佬机智操作绕过反爬验证码

前情提要此代码使用scrapy框架爬取特定“关键词”下的搜狗常规搜索结果，保存到同级目录下csv文件。并非爬取微信公众号文章，但是绕过验证码的原理相同。如有错误，希望大家指正。很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。很多已经做案例的人，却不知道如何去学习更加高深的知识。那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！??¤QQ群：623406465URL结构https:
复制链接

扫一扫