从文本挖掘来解读许巍

最新推荐文章于 2023-08-27 05:45:03 发布

R语言中文社区

最新推荐文章于 2023-08-27 05:45:03 发布

阅读量775

点赞数

本文主题：如何从文本挖掘来解读许巍？

字数：1378 | 原创作者：大志，公众号：妃烟

利用上班之余的空闲时间，我整理了许巍50首歌曲的歌词并做了一些处理。那么作为一名菜鸟级别的数据分析师，利用数据分析，让我们一起来看看许少年，到底是个什么样子的少年？

首先，我将50首歌词txt文本读取到R中，并利用jiebaR包进行了分词，去除掉一些语气词，并选取字段在2-6个字符的词语。

共分解了4439个满足上述条件的词语(未去重)

进行分词结果的频次统计并降序排列，选取频次在前50名的词语，并使用woldcloud2包进行云图设计。

可以看到，在许少年的歌词中，出现频次最多的两字词语为“世界”，其次为“我们”/“温暖”/“感觉”/“阳光”………..

在写这篇文章的前一天晚上，巍迷瑶旭旭来北京并"被我睡了一下"，我们聊起了少年的歌。少年的歌磅礴大气，不拘泥于儿女长情，更多的是抒发他对自然/生活/爱情/世界的温暖与感悟，喝茶不写茶，爱情不谈爱，但却是真实又让人感动。

那么少年最喜欢哪个季节呢？铁粉们一定都知道，当然是………

没错，春天。在50首歌曲中，“春天”共出现了27次，“秋天”共出现了17次。为什么老许喜欢春天?大概是因为那首，美人一直是他的春天吧......

其次，我统计了从1997年-2017年之间，少年出专辑的时间与歌曲数量。分别为1997年《在别处》、2000年《那一年》、2001年《我只有两天许巍精选》、2002年《时光漫步》、2004年《每一刻都是崭新的》、2006年《在路上》、2008年《爱如少年》、2012年《此时此刻》。

1997-2017 许巍发行专辑趋势

可以看到，每张专辑的歌曲数量平均在10首，少年在06年之前，每张专辑的发布时间间隔较短，06年之后时间间隔变长。但这并不能影响我们对少年的期待，慢工出细活嘛，少年的《爱如少年》和《此时此刻》可谓是是极品中的极品，百听不厌。

最后一个是我预测今年新专辑的出版时间与歌曲数量，我预测在18年的5月，发布10首歌曲，大家没事的话可以一起来预测试试看。

最后，是对少年歌词的情感分析。少年在00年左右换上了抑郁症，并在02年左右逐渐康复。所以我将前两张专辑和最近两张专辑的歌词做个对照集，进行情感分析的比对。

2001年之前，少年的歌曲负面得分为405分，负面情绪占比59%；2008年之后，少年的歌曲正面得分为388.5分，正面情绪占比70%。

2001年之前，那时候的少年渴望生长，是个有欲望却处处不得意的北漂摇滚青年，在歌词中也能体现出少年当时的情感，沉重、无助、悲伤。

然而在2008年之后的歌曲词语频次统计中，却是另一番：

这时候的少年转变了曲风的同时，整个人也发生了变化。他更加热爱生命，拥抱世界，他的情感变化也从最初的不满改变为温暖、喜悦、沉默…….

以上为文本挖掘的内容，更为深入的分析我还在学习，希望下次能给大家带来不一样的成果。能用自己的一丢丢的专业知识来分析少年的歌词也是倍感荣幸，同时也深刻感受到了什么叫做站在巨人的肩膀上。

今日装*为止，我依旧是我，一个又酷又努力的女烟民。少年依旧是我喜欢的那个少年，一个胸怀如大海、烟雨任平生的少年。

- End -

　往期精彩内容整理合集　

2017年R语言发展报告（国内）

R语言中文社区历史文章整理（作者篇）

R语言中文社区历史文章整理（类型篇）

公众号后台回复关键字即可学习

回复 R                  R语言快速入门及数据挖掘
回复 Kaggle案例  Kaggle十大案例精讲（连载中）
回复文本挖掘   手把手教你做文本挖掘
回复可视化   R语言可视化在商务场景中的应用
回复大数据         大数据系列免费视频教程
回复量化投资      张丹教你如何用R语言量化投资
回复用户画像      京东大数据，揭秘用户画像
回复数据挖掘     常用数据挖掘算法原理解释与应用
回复机器学习人工智能系列之机器学习与实践
回复爬虫            R语言爬虫实战案例分享