词向量的可视化(2D)

如何对我们通过word2vec模型得的的词向量(.txt文件)进行可视化?

步骤如下:

1)导入包matplotlib.pyplot、KMeans、PCA;

2)读取词向量文件信息,获取所有词数组(array)和词到词向量的映射(dict);

3)用for循环得到当前所选词的词向量数组(array);

4)将高维向量压缩为二维向量,以此作为可视化图像的X与Y轴坐标;

5)设定好维度、颜色、字体后开始画图,最后再为每个词标注信息。

代码如下:

import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

f = open("embedding.txt", encoding="utf-8")

f.readline()  # 略过头文件信息
all_words = []  # 所有词
word2emb = dict()  # 词到词向量的映射

for i, line in enumerate(f):
    line = line.strip().split(' ')
    word = line[0]
    embedding = [float(x) for x in line[1:]]
    all_words.append(word)
    word2emb[word] = embedding

pca = PCA(n_components=2)  
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值