【科学文献计量】文本主题挖掘与可视化


本节按照四部分进行文本主题挖掘与可视化:(1)利用Jieba进行文献记录的主题标签提取,并计算标签与文献记录关键词相似度;(2)使用Sklearn进行文献记录主题挖掘(NMP和LDA模型);(3)使用Gensim进行文献记录主题挖掘(LDA模型)并结合pyLDAvis库进行交互可视化展示。

1 文献记录的摘要主题标签提取,标签与关键词相似度计算

以WOS文献数据为例,借助mk库读取数据。首先对于文本数据需要进行停用词的去除,加载cntext中内置的停用词典,选择英文停用词。输出结果中显示该停用词词典共361个单词,数据类型为列表(为展示方便,只输出前50个单词)。除了加载该词典外,也可以自定义词典或者加载其它词典。
在这里插入图片描述mk库中的forNLP()方法功能是将导入的RecordCollection数据类型直接转化为方便进行nlp(natural language processing)处理的数据格式。方法中第一个参数是可以指定处理后的数据保存的文件地址,接着剩下的参数就是对数据的处理。比如l

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lys_828

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值