最近小编在浏览B站的时候,无意间看到了韩国女团的一段唱跳视频,小编真心觉得韩国女团的小妹妹长得真的是好看啊,而且唱的也好,于是小编就有一个大胆的想法,给女团的小姐姐打分,并且爬取她们的歌曲,并进行词频分析。由于小编不懂韩文,所以只是分析了歌曲中出现的英文,查看一下究竟女团们喜欢的英文单词是什么。
01.寻找女团
小编找了五个韩国女团,分别是Apink, BLACKPINK, Mamamoo, Red Velvet和 Sistar。然后从网上找到了他们的写真图,如下图所示:
小编想直接利用前面讲到的百度人脸识别算法人脸的打分(详见前面的推送),就是将上面的整张图片输入进行打分,但是百度人脸识别的效果不是很好,不能够将识别全部的人脸,于是,小编采用face_recognition库,将每张小姐姐的人脸扣出来,然后再一张一张的送入到百度的人脸打分系统。扣出来的人脸图片如下图所示:
02.爬取女团的歌词
接下来我们需要获取的是女团们的歌词数据,这里我们爬取的是网易云音乐的数据,采用的是requests库进行爬取,并利用BeautifulSoup库和json库进行数据解析和加载。首先我们找到需要爬取的女团的音乐界面,如下图所示:
上述网页链接中的id代表着女团的网页主界面地址。打开主界面后,我们便可以看到网页下面的歌曲,而我们要爬取歌词只需要得到每首歌曲的id即可,例如Apink的歌曲《NoNONo》,它的id是26598520,我们只需要打开以下网页便可以获取到该歌曲的歌词:
http://music.163.com/api/song/lyric?id=26598520&lv=1&kv=1&tv=-1
如下图所示:
爬取到歌词,并利用正则化进行英语单词的匹配,便可以得到我们想要的数据,部分代码如下图所示:
03.简单数据分析
得到我们需要的数据之后,接下来就是数据的分析了,首先根据百度的人脸检测系统,我们对每个女团进行了颜值打分,结果如下图所示:
由上图可以看出,打分系统认为Red Velvet女团的小姐姐们颜值最高,当然,这与我们输入的图片质量也有很大的关系,下图是我送入到打分系统的Red Velvet女团小姐姐的照片。
可以看出,小姐姐的长得都很棒。
下图是对于年龄的预测。
系统预测小姐姐们也都是二十出头的年龄。最后是对于常用英文单词的统计,这里小编只对于Apink进行了分析,其他的女团也是按照相同的方式进行分析,结果如下所示:
可以看出,常用的单词包括了I、you、love、oh等词语,彰显了小姐姐们的个性,青春和美好的情感。写到这里,小编又要回去刷B站了。
以上就是小编为大家带来的关于韩国女团分析,让大家对于女团们有更加深入的了解,大家快快动手学习起来吧!