上周看到产品经理用excel做的数据透视图很高大上,于是自己学了一下,并顺便用李白诗集做了原始数据,进行了分析。以下是整个过程。
1,下载网络上流传的李白诗集的原始文件txt。
2,使用Python,使用了结巴分词,对每一句话进行了分词处理。
3,将所有分词处理,去除符号等脏数据。
4,导入excel,进行数据透视。
以下是分析出来的统计图:
![图1](https://i-blog.csdnimg.cn/blog_migrate/823c2da2083ef8df5fbf929890987622.png)
图1为李白诗集中三字以上的词语出现频率前10名,第一的曲歌辞是诗名(没错,就是写了那么多首),其他如“君不见”,“天地间”,“悲来乎”“望长安”也很轻松的进了前十。这很李白。
![](https://i-blog.csdnimg.cn/blog_migrate/96bc70ad92fed68965bb7eee79dab3be.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f70716ef9150d0459b7ae2dd1be58d5c.png)
图2.1图2.2 为两字词语,“相思”排名第一,“明主”,“何时”“何处”各出现近40次,看得出来李白对明主的渴望很迫切。不过呢,美酒是排在明主前面的,哈哈,诗仙李白,岂能无酒?
![](https://i-blog.csdnimg.cn/blog_migrate/47fb767df077a8aa0528bf7800dd9ce2.png)
图3,写五月的诗远超其他,难道是五月天气好,不冷不热,正适合写诗?
“猿啸千溪合,松风五月寒。他年一携手,摇艇入新安。”
![](https://i-blog.csdnimg.cn/blog_migrate/19cb4742924864eb4b2f81371e745967.png)
单字中,出现最多是“不”,接着的“山天云风月”全是风景类词语,诗人李白先说不,其次再观天下景(我做的诗,哈哈)
“安能摧眉折腰事权贵,使我不得开心颜”
![](https://i-blog.csdnimg.cn/blog_migrate/7f465e2d9435accb0e00a366ebcef1c1.png)
来和去基本持平,有来有往。
![](https://i-blog.csdnimg.cn/blog_migrate/70af828cd2b95cc2909d502fe31b2cd7.png)
“东”和“西”最多,看来日出与日落的方向果然是比较容易让人有感而发。
![](https://i-blog.csdnimg.cn/blog_migrate/b486824819e24f54c51c4d4100d491af.png)
“天”的出现次数远高于“地”。想不到啥好的解释了。
以上,纯属自己玩玩,分析的可能没那么准确,看看就好~