python3 获取微博热搜词及热搜词链接

最新推荐文章于 2024-05-13 13:55:33 发布

「已注销」

最新推荐文章于 2024-05-13 13:55:33 发布

阅读量1.8k

点赞数

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sunyusunyu2011/article/details/81234101

版权

本文实现的是从微博热搜榜http://s.weibo.com/top/summary中采用正则表达式获取微博热搜词及其链接并存储成list形式的功能。

几个注意事项：

1 微博加入了“25”混淆进行反爬虫，以热搜词'迪丽热巴粉丝杨幂'为例，获取到的转码前的热搜词是：
%25E8%25BF%25AA%25E4%25B8%25BD%25E7%2583%25AD%25E5%25B7%25B4%25E7%25B2%2589%25E4%25B8%259D%2B%25E6%259D%25A8%25E5%25B9%2582
注意不可以直接replace('25','')，因为热搜词中本身就可能包含‘25’这个数，因此采用replace('%25', '%')进行替换。替换后效果：
%E8%BF%AA%E4%B8%BD%E7%83%AD%E5%B7%B4%E7%B2%89%E4%B8%9D%2B%E6%9D%A8%E5%B9%82

2 热搜词中常包括空格，而url中会自动将空格（%20）转为+号（%2B），因此需要执行.replace('+', ' ')，否则直接从url中提取会导致'迪丽热巴粉丝杨幂'变成'迪丽热巴粉丝+杨幂'

3 urllib.parse.unquote(resou_keyword, encoding="utf8")可以把看不懂的%E8%BF%AA%E4...转为'迪丽热巴粉丝杨幂'

直接上代码：

import re, urllib, requests

# 获取微博实时热搜榜
def get

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
python3 获取微博热搜词及热搜词链接

本文实现的是从微博热搜榜http://s.weibo.com/top/summary中采用正则表达式获取微博热搜词及其链接并存储成list形式的功能。几个注意事项：1 微博加入了“25”混淆进行反爬虫，以热搜词'迪丽热巴粉丝杨幂'为例，获取到的转码前的热搜词是：%25E8%25BF%25AA%25E4%25B8%25BD%25E7%2583%25AD%25E5%25B7%25B4%25E...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。