如何利用request和正则表达式获取微博热搜榜

最新推荐文章于 2021-10-20 10:28:27 发布

桃花不见秋风

最新推荐文章于 2021-10-20 10:28:27 发布

阅读量591

点赞数

分类专栏：微博热搜爬虫 spider

本文链接：https://blog.csdn.net/lujianlujian520/article/details/94500704

版权

spider 同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

爬虫

5 篇文章 0 订阅

订阅专栏

微博

1 篇文章 0 订阅

订阅专栏

其实这个是很简单的，网上有很多教程，虽然说微博热搜榜是动态数据，但是数据存储确实可以通过HTML来获取
https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6
在这里插入图片描述
注意微博是每分钟都跟新的，因此上一分组和下一分钟数据可能不完全相同

import re
import requests
from requests.exceptions import RequestException
import json
headers={
‘User-Agent’:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.80 Safari/537.36”
}

def get_one_page(url):
try:
#之前我在公司，没有外网的情况下设置proxy，
#response=requests.get(url，proxy=proxy，headers=headers,verity=False),如果没有这个参数将报错，因为没有安全证书#问题在后面是如果遇到反爬虫建议设置爬去速度调慢一些time,sleep(3)
reponse=requests.get(url)
if reponse.status_code==200:
return reponse.text
return None
except RequestException:
return None

def parse_one_page(html):
patterm=re.compile(’<tr.?<td.?ranktop">(\d+).?_blank">(.?).?(\d+).?’,re.S)
items=re.findall(patterm,html)
#return items
for item in items:
yield {
‘top’:item[0],
‘title’:item[1],
‘pop_nums’:item[2]
}

def write_to_file(conten):
path = ‘E:/test001/weibo%s.txt’ % time.strftime(’%Y_%m_%d’)
with open(path,‘w’,encoding=‘utf-8’) as f:
f.write(json.dumps(conten,ensure_ascii=False)+’\n’)
f.close()

def main():
url = ‘https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6’
html=get_one_page(url)
#print(html)
content=parse_one_page(html)
#print(content)
for item in parse_one_page(html):
print(item)
write_to_file(item)

if name == ‘main’:
main()

桃花不见秋风

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
如何利用request和正则表达式获取微博热搜榜

其实这个是很简单的，网上有很多教程，虽然说微博热搜榜是动态数据，但是数据存储确实可以通过HTML来获取https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6注意微博是每分钟都跟新的，因此上一分组和下一分钟数据可能不完全相同import reimport requestsfrom requests.exc...
复制链接

扫一扫

专栏目录