公众号后台回复“图书“,了解更多号主新书内容
作者:周萝卜
来源:萝卜大杂烩
今天再分享一份超级棒的数据,就是2020年全年的微博热点数据,说实话,这里面如果认真分析的话,还是可以找到很多有意思,有价值的信息的。
但是由于我已经写过一篇2019年微博热点数据分析的文章了,这里就不再重复了,有兴趣的同学可以点击这里查看
这里分享数据出来,希望更多的朋友可以从数据当中挖掘出更多的有价值的信息,大家一起学习进步!
下面是一些简单的数据汇总,欢迎大家一起讨论
搜索次数排行
全年微博热搜,最为直观的就是搜索次数了
可以看到小猪的分手消息还真的是高啊,毕竟是可以完美的进行时间管理的人儿啊
热搜关键词
下面来根据热搜标题,进行关键词的划分,来看看不同词汇的出现次数
这里使用著名的 jieba 来进行分词处理,然后分别提取出人名,名词已经动词
import jieba.posseg as psg
import jieba
weibo_title = df['keyword'].values.tolist()
name_list = []
noun_list = []
verb_list = []
for i in weibo_title:
result = psg.cut(i)
for x in result:
if x.flag == 'nr':
name_list.append(x.word)
elif x.flag == 'n':
noun_list.append(x.word)
elif x.flag == 'v':
verb_list.append(x.word)
分词做好之后,就可以进行词汇数量的汇总,并进行排序
name_counts = {}
stopword = ['陈', '李', '杨', '王', '郭', '吴', '周', '明星', '辟谣']
for w in name_list:
if w not in stopword:
name_counts[w] = name_counts.get(w, 0) + 1
sort_counts = sorted(name_counts.items(), key=lambda item: item[1], reverse=True)
最后我们来看看对应的排名靠前的词汇图片
1
人名
前美国总统竟然高居榜首,看来微博用户还都是很关注国际形势的,也包括华为、荣耀等,这都是大国之间博弈的体现!
2
名词
新冠、肺炎占据着前两位,在这个不平凡的2020年里,我们大家注定都会不平凡!
3
动词
动词就看看吧,不多说了
最后还是以动态视频来结尾,祝大家在新的一年里,工作顺心,事事如意!
◆ ◆ ◆ ◆ ◆麟哥新书已经在当当上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前当当正在举行活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。
管理员二维码:
猜你喜欢
● 卧槽!原来爬取B站弹幕这么简单● 厉害了!麟哥新书登顶京东销量排行榜!● 笑死人不偿命的知乎沙雕问题排行榜
● 用Python扒出B站那些“惊为天人”的阿婆主!● 你相信逛B站也能学编程吗