jieba获取关键词
import jieba.analyse
jieba.initialize()
jieba.load_userdict('../data/my_words.txt')
jieba.analyse.set_stop_words('../data/hit_stopwords.txt')
ret = jieba.analyse.extract_tags("算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。", topK=20, withWeight=False, allowPOS=())
print(ret)
ret = jieba.analyse.textrank("算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。", topK=20, )
print(ret)