基于搜狗微信的公众号文章爬虫

最新推荐文章于 2024-08-02 18:13:28 发布

sixkery

最新推荐文章于 2024-08-02 18:13:28 发布

阅读量4.3k

点赞数

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sixkery/article/details/82989005

版权

需求分析

先来看一下目标网站。
搜狗微信搜索页面
这次爬取的内容是通过搜狗微信的接口获取微信文章的 url 然后提取目标文章的内容及公众号信息。
可以指定内容进行爬取
那这次需要解决的问题有哪些呢？

需要解决的问题

搜狗微信在没有登录的情况下可以爬取十页信息，我们想要获取更多的信息只能登录。在登录的情况下，爬取数据量太大会被封 IP 。这里给出的解决方案是使用代理池的方法。我这里是自己搭建了一个小的IP代理池，在我以前的文章里有详细的描述，可以点这里查看。

代码演示

proxy = None # 声明代理为 None 也就是开始的时候用本机的ip爬取
count_max = 5 # 设置一个连接错误，如果连接超过五次都出错就停止爬取，要不然程序陷入死循环。
# 请求头的设置要加上cookie
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
           }

# 获取代理
def get_proxy():
	proxy = GetIP()
	return proxy.get_random_ip()

# 请求页面，这里主要使用了代理，一开始使用的是本机代理，被封之后换个ip来爬。
def get_request(url,count=1):
	global proxy
	if count >= count_max:
		print('请求太多次了，这个方法不行啦，换换吧')
	try:
		if proxy:
			proxies =

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

sixkery CSDN认证博客专家 CSDN认证企业博客

码龄6年

90: 原创

5万+: 周排名

205万+: 总排名

12万+: 访问

: 等级

2034: 积分

46: 粉丝

111: 获赞

23: 评论

345: 收藏

私信

关注

热门文章

分类专栏

数据库 2篇
docker 1篇
Leetcode刷题记录 27篇
爬虫 20篇
数据分析 9篇
python基础 8篇
工具 8篇
算法 7篇
Django 2篇
随笔 2篇
java 1篇

最新评论

双系统ubuntu18.04调节屏幕亮度
sixkery: Ubuntu 下一般登录都是当前用户的，有些系统操作是需要用 root 身份操作，建议学习一下相关知识。
双系统ubuntu18.04调节屏幕亮度
codedog1: 权限不够是啥意思，我是小白
python 分析泰坦尼克号生还率
LeicyII: 感谢感谢感谢！重要的话说三遍
python 分析泰坦尼克号生还率
李张全: data_t['Embarked'] = data_t['Embarked'].fillna({"Embarked":"S"},inplace=True) 这行代码，Embarked 一列的空值没有赋值成功，下面的描述也有显示
python 实现单向循环链表
qq_3193227393: 你好，在链表尾部插入新元素时，while循环是为了找出尾结点，在头部插入时也有找尾结点，你在尾部插入时说while循环这里判断条件发生变化，发生什么变化呢？

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。