Synonyms
Chinese Synonyms for Natural Language Processing and Understanding.
最近需要做一个基于知识图谱的检索,但是因为知识图谱中存储的都是标准关键词,所以需要对用户的输入进行标准关键词的匹配。
于是采用了基于同义词库的方式,将《非标准表述》 映射到 《标准表述》,这就是Synonyms的起源。
下面我们来仔细聊聊Synonyms。
首先需要语料,我们采用了开放的大规模中文语料——维基百科中文语料。
(1)下载维基百科中文语料。
(2)繁简转换。
(3)分词。具体操作访问wikidata-corpus
使用gensim自带的word2vec包进行词向量的训练。
(1)下载gensim。
(2)输入分词之后的维基语料进行词向量训练。
(3)测试训练好的词的近义词。具体操作访问
wikidata-corpus