python关键词共现_python 共现矩阵的实现

本文介绍了如何使用Python构建关键词的共现矩阵,通过爬取博客文章,使用jieba分词,清洗数据,然后建立并计算共现矩阵,为后续的词库可视化提供数据基础。共现矩阵是对称的,对角线为0,用于表示关键词之间的共现关系。
摘要由CSDN通过智能技术生成

1.前言

最近在学习python词库的可视化,其中有一个依据共现矩阵制作的可视化,感觉十分炫酷,便以此复刻。

2.项目背景

本人利用爬虫获取各大博客网站的文章,在进行jieba分词,得到每篇文章的关键词,对这些关键词进行共现矩阵的可视化。

3.什么是共现矩阵

比如我们有两句话:

ls = ['我永远喜欢三上悠亚', '三上悠亚又出新作了']

在jieba分词下我们可以得到如下效果:

我们就可以构建一个以关键词的共现矩阵:

['', '我', '永远', '喜欢', '三上', '悠亚', '又', '出', '新作', '了']

['我', 0, 1, 1, 1, 1, 0, 0, 0, 0]

['永远', 1, 0, 1, 1, 1, 0, 0, 0, 0]

['喜欢' 1, 1, 0, 1, 1, 0, 0, 0, 0]

['三上', 1, 1, 1, 0, 1, 1, 1, 1, 1]

['悠亚', 1, 1, 1, 1, 0, 1, 1, 1, 1]

['又', 0, 0, 0, 1, 1, 0, 1, 1, 1]

['出', 0, 0, 0, 1, 1, 1, 0, 1, 1]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值