文本主题挖掘与可视化
本节按照四部分进行文本主题挖掘与可视化:(1)利用Jieba进行文献记录的主题标签提取,并计算标签与文献记录关键词相似度;(2)使用Sklearn进行文献记录主题挖掘(NMP和LDA模型);(3)使用Gensim进行文献记录主题挖掘(LDA模型)并结合pyLDAvis库进行交互可视化展示。
1 文献记录的摘要主题标签提取,标签与关键词相似度计算
以WOS文献数据为例,借助mk库读取数据。首先对于文本数据需要进行停用词的去除,加载cntext中内置的停用词典,选择英文停用词。输出结果中显示该停用词词典共361个单词,数据类型为列表(为展示方便,只输出前50个单词)。除了加载该词典外,也可以自定义词典或者加载其它词典。
mk库中的forNLP()方法功能是将导入的RecordCollection数据类型直接转化为方便进行nlp(natural language processing)处理的数据格式。方法中第一个参数是可以指定处理后的数据保存的文件地址,接着剩下的参数就是对数据的处理。比如l