Python文本相似度实战——基于gensim和nltk库
任务内容:给定一个文本库,比如说新闻文本(无标注的)等等,现在有一些已经做好标注的文本,如何在文本库中找到与做好标注的文本相似的文章。所用工具:python , gensim , nltkgensim提供了很多算法来实现文本相似度的比较,比如TF-IDF,topic model,以及LDA等等。nltk则是自然语言处理领域非常知名的库,包含很多处理文本内容的方法
原创
2017-02-25 07:16:56 ·
9571 阅读 ·
5 评论