主要思想为将每一个词转换为对应的向量。
1.新建一简单的词典
2.读取文件中内容
np.save('resultFile/wordsList', np.array(list(embeddings_dict.keys())))
np.save('resultFile/wordVectors', np.array(list(embeddings_dict.values())))
# resultFile/wordsList 这个东西这样理解。resultFile是一个文件目录 我们将东西存入到wordsList里面,wordsList 是自动生成的 这个一个npy格式文件的名字 ,想取什么名字都行
wordsList = np.load('resultFile/wordsList.npy')
# 这一行代码就是要加载之前生产的.npy文件 因为里面装了所有的词
wordsList = wordsList.tolist()
print(wordsList)
# 我们要把这个文件转换成 list 列表格式 便于后面我们找索引。
#为什么找索引 index ?因为 词 和词向量是一一对应的 我们之前存储的时候就是按照顺序存储的
#比如wordsList第一行是 the 这个单词。 然后wordVectors 这个文件第一行就是它的词向量
# 这就是 查找索引的意义 也就是说 两个文件分别存储 键 和 值 。索引是个桥梁 就是这么个意思
#结果:
#['张三', '李四', '陈六']
# 下面这一行代码是要找 陈六
baseballIndex = wordsList.index('陈六')
print(baseballIndex) #找到了桥梁 索引 咋们把这个索引号打出来
wordVectors = np.load('resultFile/wordVectors.npy') # 加载单独存储的那个词向量文件
print(wordVectors)
print(wordVectors.shape) # 输出维度 比如(25,50) 这个25代表多少个词 50表示每一个词是用多少维向量表示
print(wordVectors[baseballIndex]) # 顺利的输出 词向量
#结果:
#2
#[[20. 30. 45.]
# [50. 12. 60.]
#[45. 33. 95.]]
#(3, 3)
#[45. 33. 95.]