爬虫实例：正则表达式爬取微博热搜榜

最新推荐文章于 2024-07-31 14:30:10 发布

静谧蓝莲

最新推荐文章于 2024-07-31 14:30:10 发布

阅读量1.6k

点赞数 2

文章标签： python 正则表达式

本文链接：https://blog.csdn.net/tb512934589/article/details/120860414

版权

最近在学习python的爬虫知识，分享一个爬取微博热搜的实例，代码很简单。

用到了requests，re，xlwt库

直接看图：

#1导入模块
import requests
import re
import xlwt

#2定制请求头
url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6"
headers={
    "user-agent":""
    ,"Cookie":""
}
#3获取网页数据
r=requests.get(url,headers=headers)
r.encoding=r.apparent_encoding
print(r.status_code)
html=r.text
#4用正则提取排名，热搜内容，热度等信息
datalist=[]
rank=re.findall(r'<td class="td-01 ranktop">(.*)</td>',html)
name=re.findall(r'<a.*target="_blank">(.*?)</a>',html)[1:51]
hot=re.findall(r'<span>(.*?)</span>',html)[1:51]
datalist.append(rank)
datalist.append(name)
datalist.append(hot)
#5保存数据
book=xlwt.Workbook(encoding="utf-8")
sheet=book.add_sheet("微博热搜",cell_overwrite_ok&#

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

静谧蓝莲

关注关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
2
评论
爬虫实例：正则表达式爬取微博热搜榜

最近在学习python的爬虫知识，分享一个爬取微博热搜的实例，代码很简单。用到了requests，re，xlwt库直接看图：#1导入模块import requestsimport reimport xlwt#2定制请求头url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6"headers={ "user-agent":"" ,"Cookie":""}#3获取网页数据
复制链接

扫一扫