python中读取txt文件、统计其中所有字母出现的频度_基于python的微博热搜爬取及数据分析...

最新推荐文章于 2023-06-27 20:30:05 发布

weixin_39625782

最新推荐文章于 2023-06-27 20:30:05 发布

阅读量864

点赞数 2

文章标签： python中读取txt文件、统计其中所有字母出现的频度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39625782/article/details/113503090

版权

本文介绍了一个Python爬虫项目，用于抓取微博2020年1月3日的热搜数据，包括动态展示、热点词云生成及关键词频度统计。通过解析网页，获取热搜名次、主题和讨论量，存储数据到CSV文件，再利用结巴分词生成词云，并分析数据，统计关键词频度，最后绘制条形图展示前20个高频关键词。

摘要由CSDN通过智能技术生成

刚学python爬虫，用爬虫爬取新浪微博热搜，看看效果如何，也是对这段时间学习python的总结。

一、目的：

抓取新浪微博2020年1月3日星期五的热搜榜，将抓取到的数据进行动态展示，并生成当天的微博热点词云及微博热搜频度较高的前20个关键词的条形图。

二、思路：

分析新浪微博热搜榜网页https://s.weibo.com/top/summary，分析网页结构

对网页进行解析，获取当前热点的话题、名次、话题讨论量、当前抓取的时间

由于微博热搜动态刷新，选取20-30分钟抓取一次数据，时间范围为9:30-21:00

将最后抓取到的所有的数据导入到实现数据动态显示的模块中，并进行相关调整

利用结巴分词对获取到数据进行分词，用WordCloud显示当天热搜的热点词云

三、相关实现步骤

1.网页解析

定义请求头来进行模拟浏览器，并随机生成一个请求头，方法def get_header():

header1 = {

"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0"

}

header2 = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"

}

header3 = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"

}

header_list = [header1,header2,header3]

index = random.randint(0,1)

return header_list[index]

解析网站方法：def get_data(url,headers)

访问

req = requests.get(url=url, headers=headers)

req.encoding = "utf-8"

通过lxml解析网页

bf = BeautifulSoup(html, "lxml")

通过观察，每一条热搜都是在tr class=””下，因此只需遍历所有的class=””

就能得到每一条热搜

div_content = bf.find_all("tr", class_="")

遍历div_content，获得每条热搜的名次，主题，讨论量

for item in div_content:

去掉置顶的那一条信息，在循环外加个变量t = 1

if (t == 1):

t = 0

continue

tr下有三条td信息，分别代表名次、热搜主题和浏览量、标签表情，前两条信息是我们想要获取的

获取当前热搜名次

num_content = item.select("td")[0].string

热搜主题和浏览量分别在td-02的a标签和span标签下

获取当前热搜主题

content = item.select("td")[1].select("a")[0].string

获取当前热搜主题讨论量

num = item.select("td")[1].select("span")[0].string

获取当前系统时间，需要在前面导入from time import strftime

current_time = strftime("%Y-%m-%d %H:%M")

将当前热搜名次、当前热搜主题、当前热搜主题讨论量、当前系统时间放入list，以便存储数据

list = [content,num_content,num,current_time]

将list整个再放入一个list中

list_content.append(list)

2.存储数据

将爬取到的数据存储起来，存储方法def store_Excel(list):

写入文件，编码方式为utf_8_sig，生成的csv文件不会乱码，不换行操作为newline=””

with open("微博实时热搜.csv","a",encoding="utf_8_sig",newline=""

最低0.47元/天解锁文章

weixin_39625782

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。