最近迷上了可视化,周末在家好好学了echarts与python+echarts的集合pyecharts,还有gephi。感兴趣的小伙伴可以看看。
忠告下,MAC下的gephi是大坑,windows下的pyecharts也稍微有点坑。
本文主要提供一个思路,把分析结果展示给大家,抛砖引玉。
jiabe tf_idf 分析,提取出最重要的100个词,这里只打印前10个词
萧峰和乔峰分别位于第2和第3呀,加起来第1哟,段誉当之无愧的第二,大家记好段誉这个名字,后面会对他进行相似度分析。至于虚竹是谁?虚竹?好像听过这个名字。。。
python一个好玩的包是词云,像不像大字报?上图
下面上google的word2vec
先分析阿朱、阿紫的相似度
再看与段誉最相似/相关的
出来了木婉清、王语嫣。嘿嘿,段誉别装了,就是木婉清了!
继续,老规矩的Python社交网络分析
上次很多小伙伴留言要我的社交网络画图法,这次我就一并放上吧,但是对于大数据下的社交网络,建议用gephi或别的可视化工具。
这个图是什么?看不懂!
下面上gephi图:
好吧,天龙八部大人可以好好分析了,主意,萧峰与乔峰有不同的社交网络哟!
欢迎加入本站公开兴趣群
软件开发技术群
兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流
QQ群:26931708
Hadoop源代码研究群
兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop
QQ群:288410967