代码文件
import logging
from gensim.models import word2vec
def getmodel():
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
# 加载《人民的名义》文本
sentences = word2vec.LineSentence('./in_the_name_of_people_segment.txt')
# 构建word2vec模型
model = word2vec.Word2Vec(sentences, size=100, window=5, min_count=5, workers=4)
# 检查《人民的名义》中特定人名的相似度
# 示例:similarity = model.wv.similarity('钟小艾', '侯亮平')
# print("相近度为:{:.2%}".format(similarity))
return model
题目描述
任务描述
本关任务:根据本关所学有关 word2vec 算法的知识,完成基于 gensim 模块进行文本相似度比较的程序的编写并通过所有测试用例。
相关知识
为了完成本关任务,你需要掌握:
-
文本向量化的具体含义;
-
word2vec 算法的几种模型。
文本向量化概述
文本表示是自然语言处理中的基础工作,