java实现微博热搜榜_微博热搜数据

最新推荐文章于 2024-08-20 23:19:05 发布

布尔布热

最新推荐文章于 2024-08-20 23:19:05 发布

阅读量2.5k

点赞数 1

文章标签： java实现微博热搜榜

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29825411/article/details/114711892

版权

该博客详细介绍了如何使用Python爬虫抓取并分析微博热搜数据，包括数据的获取、清洗、处理和可视化。通过XPath和正则表达式解析HTML，存储到CSV文件，然后使用Pandas进行数据处理，Matplotlib和Seaborn进行数据可视化，展示排名与热度的关系，建立一元一次和一元二次回归方程。

摘要由CSDN通过智能技术生成

------主题式网络主题式网络爬虫设计方案------

1.爬虫名称：爬取微博热搜

2.爬虫爬取的内容：爬取微博热搜数据。数据特征分析：各数据分布紧密联系。

3.网络爬虫设计方案概述：

实现思路：通过访问网页源代码使用xpath正则表达爬取数据，对数据进行保存数据，再对数据进行清洗和处理，数据分析与可视化处理。

技术难点：在编程的过程中，若中间部分出现错误，可能导致整个代码需要重新修改。数据实时更新，会导致部分上传的图形不一致。

------主题页面的结构特征分析------

1.主题页面的结构和特征分析：爬取数据都分布在标签'div.cc-cd-cb nano has-scrollbar'里面，标题标签为'span.t',热度标签为'span.e'。

2.Htmls页面解析：

3.节点(标签)查找方法与遍历方法：通过xpath遍历标签。利用xpath正则表达查找。

------网络爬虫程序设计------

importrequestsfrom lxml importetreeimportpandas as pdimportnumpy as npimportmatplotlib.pyplot as pltimportmatplotlibfrom scipy.optimize importleastsqimportscipy.stats as stsimportseaborn as sns

url= "https://tophub.today/"headers= {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362'}

html= requests.get(url,headers = headers)

html= html.content.decode('utf-8')

html = etree.HTML(html)

div= html.xpath("//div[@id='node-1']/div")for a in div:

titles = a.xpath(".//span[@class='t']/text()")

numbers = a.xpath(".//span[@class='e']/text()")

b= []

for i in range(25):

b.append([i+1,titles[i],numbers[i][:-1]])

file = pd.DataFrame(b,columns = ['排名','今日热搜','热度(单位为万)'])print(file)

file.to_csv('微博热搜榜热度数据.csv')

2.对数据进行清洗和处理：

df = pd.DataFrame(pd.read_csv('微博热搜榜热度数据.csv'))

df.head()

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。