通过共现矩阵和余弦相似度实现机器对单词的认知、python实现
本文介绍的定义:
语料库、计数方法的目的、语料库预处理、单词的分布式表示、分布式假设、上下文、窗口大小、基于计数的方法表示单词、用向量表示单词、共现矩阵、单词的相似度、余弦相似度、相似单词排序。
一、语料库预处理
语料库:大量的文本数据。
计数方法的目的:从语料库中提取语言的本质。
语料库预处理:将文本分割为单词,并将分割后的单词列表转化为单词ID列表。实现代码如下,其中corpus 是单词ID列表,word_to_id 是单词到单词ID的字典,id_to_word是单词ID到单词的字典。
def preprocess(text):
text = text.lower(