【主题建模】基于 LDA 和 BERTopic 的 COVID-19 论文内容分析

基于 LDA 和 BERTopic 的 COVID-19 论文内容分析

关于 COVID-19 的研究不胜枚举,截至 2022 年初,已发表了超过 800000 800000 800000 篇与 COVID-19 相关的论文。对这些论文进行梳理是一项非常具有挑战性的任务,但这可以帮助我们确定哪些领域可以更多的从研究或研究基金中受益。在本文中,我将评估这些 COVID-19 研究论文的主题,尝试揭示这些统计数据和趋势。

数据集来自 The COVID-19 Open Research Dataset (CORD-19),该数据集包含了与冠状病毒研究或 COVID-19 大流行相关的学术论文语料库。 CORD-19 数据集旨在支持文本挖掘和 NLP 研究,并为评估 COVID-19 大流行的主题提供良好开端。

尽管获取 CORD-19 数据相对不难,但因数据质量问题仍要进行数据清洗,具体的数据清洗过程细节不在本文讨论范围内。我仅保留 2020 年初 COVID-1

  • 12
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

G皮T

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值