百度空间关闭了, 本系列文章从 hi.baidu.com/cwyalpha 转移过来
想看看某类歌词里哪些词用的比较多。
1. 歌词及类别从这里来 http://music.baidu.com/tag 带歌词的歌大约有27k
2. 分词用的是jieba in Python
3. 去除停用词,去除单个汉字。切记,一定要去除“爱”字。“爱”比“的”还可怕,不去除的话每个topic都充斥着“爱”
4. 把每首歌当作一个doc,对每个doc生成P(topic|doc)的向量后,把他们的值用色块标注了下,由白→黄→红值逐渐增大。每个topic代表词按概率由大到小从上到下排列。如下图(点开大图)。相应的excel下载( http://pan.baidu.com/sha