任务内容:
给定一个文本库,比如说新闻文本(无标注的)等等,现在有一些已经做好标注的文本,如何在文本库中找到与做好标注的文本相似的文章。
所用工具:
python , gensim , nltk
gensim提供了很多算法来实现文本相似度的比较,比如TF-IDF,topic model,以及LDA等等。
nltk则是自然语言处理领域非常知名的库,包含很多处理文本内容的方法,目前我还不是很熟悉
参考来源:
核
任务内容:
给定一个文本库,比如说新闻文本(无标注的)等等,现在有一些已经做好标注的文本,如何在文本库中找到与做好标注的文本相似的文章。
所用工具:
python , gensim , nltk
gensim提供了很多算法来实现文本相似度的比较,比如TF-IDF,topic model,以及LDA等等。
nltk则是自然语言处理领域非常知名的库,包含很多处理文本内容的方法,目前我还不是很熟悉
参考来源:
核