用文本挖掘找出50年以来最流行的音乐

本文为数盟原创译文

从1958年开始每年十二月Billboard都会发布一个年度百首流行曲金榜。这个图表涵盖了美国全年的流行单曲表现。通过R语言,我已经把50年的(1965-2015) 年度流行金榜百首的歌词合并到一个数据集进行分析。你可以在我的Github库中下载该数据集。获取歌词用于分析的歌曲是来自于对维基百科中每个Billboard年度流行金榜百首(如2014年)的抓取。这是整个年度的图表,而不是每周的排名。许多艺术家做过周图表,但没有做过年度图表。年度图表是通过周Billboard的逆点系统来进行计算的。我使用XML和RCurl从每个维基百科词条中抓取歌曲和艺术家的名字。然后我用这个列表从有可预见的URL字符串的网站上抓取歌词(例如,metrolyrics.com就使用metrolyrics.com/SONG-NAME-lyrics-ARTIST-NAME.html)。如果第一个站点抓取失败了,就转向第二个,依此类推。大约78.9%的歌词是从metrolyics.com上抓取的,15.7%是从songlyrics.com上,1.8%是从lyricsmode.com上。另外大约3.6%(187/5100)没有找到。该数据集对5100个观测对象根据歌曲、艺术家、年份、歌词和来源进行了1-100的特征等级划分。归功于维基百科艺术家特征是相当标准化的,但当涉及到与艺术家的合作时就存在一些问题。如果在抓取的歌词中存在错误,如拼写错误或另外的像把“night”写成了“nite”,这些并没有得到纠正。

管理数据

最常见的歌词


58%一单首现象出现在年度图表上的1989名中的1154名艺术家(约占58%)都仅仅只有一首知名曲目。右边的数据是通过把艺术家的歌曲进行汇总而计算出来的;另外把“精选”艺术家都单独列出来。这意味着只有位列第一的艺术家才能得到对其歌曲的完全信任。Songs12345678910Artists115431916090706131231318马拉松vs冲刺生涯我们惊讶地发现一些位居表格顶端的艺术家反而有相对较短的职业生涯(Rihanna在10年时间内有28个入表的歌曲),所以我观察了一下歌手职业生涯的长度和入榜歌曲的平均数量之间的关系,并发现这两者之间是呈负相关的。职业生涯跨度每增加一年,每年歌曲入榜平均数量就会减少94%。*数据集不包括1964年披头士乐队第一年入选年度榜单,所以实际上他们的职业生涯跨度是12年。随时间增长歌词的变化词汇和曲长不断增长数据集中的歌曲平均总长332个单词,114种词汇。平均字数(包括种类和数量)随着时间的推移不断增加。字数的变化量也有所增加,可能是由于随着时间的推移进入榜单排名的歌曲体裁更加多样。可变方差通过字数统计的转换日志进行校正,并和两个线性模型拟合,最后产生总系数0.01873和单词种类系数0.0136。在每年的增加量上,总字数平均每年增加1.87%,字数种类增加1.36%。这个增长可能是由于较长的歌曲——自从20世纪60年代以来歌曲逐渐从2.5分钟增长至4分钟,这时期快节奏的音乐风格和歌曲特征盛行,超过了对某个艺术家的关注。从Boogie到Bitch:十年间最具特色的歌词利用我先前的职位(Text Mining South Park)中列出的对数似然统计,我能够识别在特定十年内最有特色的歌词。总之,在有较高的对数似然语料库中,单词会比预期出现的频率更高。 25个最有力的结果(总数>81; P <0.001下显著度10.83)。很明显,个别歌曲是在反复重复从而影响了结果。这反而引起了对数似然在歌词上的适用性方面的一个很好的议题——一首高度重复的歌曲会扭转这个结果吗?注意事项广告牌年终热门100首排行榜政策的变化流行歌曲内容的一般变化至少可以部分归因于随着时间的推移百强排名方法的演变。广告牌通过发现和购买音乐的方法改变其排名政策以保持其时代相关性。1958年至1991年:由单曲销量和AirPlay的比例确定排名1991年:广告牌开始收集数字销售数据(使用SoundScan的),以便更快更准确的制作图表1998年:广告牌要求歌曲必须作为单曲发行才能出现在图表上2005:包括数字下载(如iTunes)2012:流媒体点播服务(Spotify,狂想曲)收录2013:包括视频形式(YouTube)现在的消费者比以往在单曲榜中更多的发言权。在此之前的2005年,消费者可以通过购买单曲或在电台上点歌来影响图表排名。现在,消费者可以通过观看视频、下载单曲或购买物理拷贝版本来对歌曲的流行度做出影响。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值