1.前言
最近在学习python词库的可视化,其中有一个依据共现矩阵制作的可视化,感觉十分炫酷,便以此复刻。
2.项目背景
本人利用爬虫获取各大博客网站的文章,在进行jieba分词,得到每篇文章的关键词,对这些关键词进行共现矩阵的可视化。
3.什么是共现矩阵
比如我们有两句话:
ls = ['我永远喜欢三上悠亚', '三上悠亚又出新作了']
在jieba分词下我们可以得到如下效果:
我们就可以构建一个以关键词的共现矩阵:
['', '我', '永远', '喜欢', '三上', '悠亚', '又', '出', '新作', '了']
['我', 0, 1, 1, 1, 1, 0, 0, 0, 0]
['永远', 1, 0, 1, 1, 1, 0, 0, 0, 0]
['喜欢' 1, 1, 0, 1, 1, 0, 0, 0, 0]
['三上', 1, 1, 1, 0, 1, 1, 1, 1, 1]
['悠亚', 1, 1, 1, 1, 0, 1, 1, 1, 1]
['又', 0, 0, 0, 1, 1, 0, 1, 1, 1]
['出', 0, 0, 0, 1, 1, 1, 0, 1, 1]