大家晚上好,我是阿涛。
今天的主题是介绍提取从文本中关键词技术(有时候业务场景是需要从海量舆情数据中提取关键词,这个时候就需要进行分词求词频来先发现高频词),介绍最为简单的一种用jieba分词后,然后统计词频,词频高的我们就理解为关键词;当然还有LDA、textrank等提取关键词的算法。
如果是多篇文档还可以再加tf-idf算法,计算关键词的"新鲜度"。
【T】.文本关键词提取-词频统计
【1】项目说明:
说明:可用于提取文本中的关键词,对文本进行分词,然后统计词频,可以绘制词云图并输出词频统计结果
过程:
1.get_data()读取数据
2.get_stopword()读取停用词
3.count_ke