word2vec利用词向量进行中文新闻标题相似度分析
需求是在48万条中文新闻标题里,给测试集中50条标题的每一条找出最相近的20条新闻。拿到这个需求第一反应当然是计算词向量,生成每句话的语义向量然后计算相似度啦,也想过TFIDF来提取每条新闻的关键字,但是原始数据集是没有分类标签的,所以这一步比较难做。在下一步打算计算每条新闻的语义向量以后对新闻进行聚类,然后再应用TFDF提取关键字,直觉上这样可以提升准确度同时降低运算量。完整代码可以从这个git
原创
2018-05-10 13:57:59 ·
7853 阅读 ·
7 评论