从文本挖掘来解读许巍



本文主题:如何从文本挖掘来解读许巍?

字数:1378  |  原创作者:大志,公众号:妃烟



利用上班之余的空闲时间,我整理了许巍50首歌曲的歌词并做了一些处理。那么作为一名菜鸟级别的数据分析师,利用数据分析,让我们一起来看看许少年,到底是个什么样子的少年?

首先,我将50首歌词txt文本读取到R中,并利用jiebaR包进行了分词,去除掉一些语气词,并选取字段在2-6个字符的词语。

共分解了4439个满足上述条件的词语(未去重)


进行分词结果的频次统计并降序排列,选取频次在前50名的词语,并使用woldcloud2包进行云图设计。


可以看到,在许少年的歌词中,出现频次最多的两字词语为“世界”,其次为“我们”/“温暖”/“感觉”/“阳光”………..

在写这篇文章的前一天晚上,巍迷瑶旭旭来北京并"被我睡了一下",我们聊起了少年的歌。少年的歌磅礴大气,不拘泥于儿女长情,更多的是抒发他对自然/生活/爱情/世界的温暖与感悟,喝茶不写茶,爱情不谈爱,但却是真实又让人感动。

那么少年最喜欢哪个季节呢?铁粉们一定都知道,当然是………



没错,春天。在50首歌曲中,“春天”共出现了27次,“秋天”共出现了17次。为什么老许喜欢春天?大概是因为那首,美人一直是他的春天吧......

其次,我统计了从1997年-2017年之间,少年出专辑的时间与歌曲数量。分别为1997年《在别处》、2000年《那一年》、2001年《我只有两天 许巍精选》、2002年《时光漫步》、2004年《每一刻都是崭新的》、2006年《在路上》、2008年《爱如少年》、2012年《此时此刻》。


1997-2017 许巍发行专辑趋势


可以看到,每张专辑的歌曲数量平均在10首,少年在06年之前,每张专辑的发布时间间隔较短,06年之后时间间隔变长。但这并不能影响我们对少年的期待,慢工出细活嘛,少年的《爱如少年》和《此时此刻》可谓是是极品中的极品,百听不厌。


最后一个是我预测今年新专辑的出版时间与歌曲数量,我预测在18年的5月,发布10首歌曲,大家没事的话可以一起来预测试试看。

最后,是对少年歌词的情感分析。少年在00年左右换上了抑郁症,并在02年左右逐渐康复。所以我将前两张专辑和最近两张专辑的歌词做个对照集,进行情感分析的比对。



2001年之前,少年的歌曲负面得分为405分,负面情绪占比59%;2008年之后,少年的歌曲正面得分为388.5分,正面情绪占比70%。

2001年之前,那时候的少年渴望生长,是个有欲望却处处不得意的北漂摇滚青年,在歌词中也能体现出少年当时的情感,沉重、无助、悲伤。

然而在2008年之后的歌曲词语频次统计中,却是另一番:


这时候的少年转变了曲风的同时,整个人也发生了变化。他更加热爱生命,拥抱世界,他的情感变化也从最初的不满改变为温暖、喜悦、沉默…….

以上为文本挖掘的内容,更为深入的分析我还在学习,希望下次能给大家带来不一样的成果。能用自己的一丢丢的专业知识来分析少年的歌词也是倍感荣幸,同时也深刻感受到了什么叫做站在巨人的肩膀上。

今日装*为止,我依旧是我,一个又酷又努力的女烟民。少年依旧是我喜欢的那个少年,一个胸怀如大海、烟雨任平生的少年。

- End -




 往期精彩内容整理合集 

2017年R语言发展报告(国内)

R语言中文社区历史文章整理(作者篇)

R语言中文社区历史文章整理(类型篇)


公众号后台回复关键字即可学习

回复 R                  R语言快速入门及数据挖掘 
回复 Kaggle案例  Kaggle十大案例精讲(连载中)
回复 文本挖掘      手把手教你做文本挖掘
回复 可视化          R语言可视化在商务场景中的应用 
回复 大数据         大数据系列免费视频教程 
回复 量化投资      张丹教你如何用R语言量化投资 
回复 用户画像      京东大数据,揭秘用户画像
回复 数据挖掘     常用数据挖掘算法原理解释与应用
回复 机器学习     人工智能系列之机器学习与实践
回复 爬虫            R语言爬虫实战案例分享

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值