【PaperReading】Eliciting Disease Data from Wikipedia Articles-CSDN博客

本文链接：https://blog.csdn.net/weixin_42864175/article/details/89840712

本文探讨了如何利用维基百科文章进行疾病数据提取，特别是死亡、感染和住院数量。通过训练命名实体识别器，从文章中获取实时更新的数据，并以2014年西非埃博拉疫情为案例，展示了维基百科作为疾病监测和数据存储库的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《Eliciting Disease Data from Wikipedia Articles》

从Wikipedia文章中获取疾病数据

摘要

传统的疾病监测系统存在一些缺点，包括报告滞后和过时的技术，这些缺点导致了基于互联网的疾病监测系统的发展。互联网系统对于疾病爆发尤其具有吸引力，因为它们可以近乎实时地提供数据，并且可以由全球各地的人员进行验证。但是，大多数现有系统都侧重于疾病监测，并没有为决策者或研究人员提供数据存储库。为了填补这一空白，我们分析了维基百科的文章内容。

我们演示了如何训练命名实体识别器来标记案例计数，死亡计数和住院计数，在文章叙述中获得0.753的F1分数。我们还使用2014年西非埃博拉病毒病流行文章作为案例研究表明，有详细的时间序列数据不断更新，与地面实况数据紧密结合。

我们认为维基百科可用于创建第一个社区驱动的开源新兴疾病检测，监控和存储库系统。

方法

疾病相关信息可以在维基百科的许多地方找到。我们演示了如何收集维基百科文章内容的两个方面（文章文本和表格内容的历史变化）以用于疾病监测目的。我们首先展示如何训练命名实体识别器从爆发文章中引出“重要”短语，然后我们研究使用2014年西非埃博拉疫情作为案例研究在某些文章中发现的表格时间序列数据的准确性。

Wikipedia data
维基百科是一个开放的协作百科全书，包含287种语言的约3000万篇文章（维基媒体基金会2014f; 2014g）。维基百科的英文版是迄今为止规模最大，最活跃的版本;它仅包含约470万篇文章，而下一个最大的维基百科版（瑞典语）仅包含190万篇文章（维基媒体基金会2014g）。每篇英文维基百科文章的当前版本的文本内容总计大约10千兆字节（维基媒体基金会2014d）。

维基百科对研究人员的主要吸引力之一是其开放性。所有历史文章内容，可以追溯到2001年维基百科成立，任何人都可以免费使用。维基百科内容可以通过两种方式获得：a）维基百科的官方Web API3或b）可下载的数据库转储4。虽然本研究中的分析可以使用可下载的数据库转储离线完成，但实际上这个选项很难实现，因为包含所有历史英文文章修订版的数据库转储非常大（未压缩时为多TB）（维基媒体基金会2014h）。因此，我们决定使用维基百科的网络API，在适当的时候缓存内容。

维基百科包含许多关于特定疾病暴发和流行病的文章（例如，2014年西非埃博拉疫情5和2012年中东呼吸综合症冠状病毒（MERS-CoV）爆发6）。我们确定了可以帮助疾病监测工作的维基百科疾病爆发文章的两个关键方面：a）文章文本中的关键短语和b）表格内容。我们调查的大多数爆发文章包含：日期，地点，病例数，死亡人数，病例死亡率，人口统计数据和住院计数。通常，随着新数据的出现，这些数据会迅速更新。也许最重要的是，通常会提供来源以便进行外部审查。

Named-entity recognition
虽然斯坦福大学的NER包括能够识别常见命名实体的模型，例如PERSON，ORGANIZATION和LOCATION，但它也为我们提供了训练我们自己的模型的能力，以便我们可以捕获我们感兴趣的新类型的命名实体。具体任务，我们有兴趣自动识别三种实体类型：a）DEATHSb）INFECTIONS，和c）HOSPITALIZATIONS。因此，我们训练有素的模型应该能够自动标记与其接收的文本文档中的这三个实体相对应的短语作为输入。

NERs具有学习和概括的能力，以便识别看不见的短语模式。由于分类器依赖于我们提供给它的特征（例如，单词，词性标签），因此应该很好地概括了看不见的实例。由于固有的变化，更简单的模式匹配方法（例如正则表达式）是不实用的。例如，我们数据集中的以下短语都包含INFECTIONS实体：

总共17名确诊H7N9病毒感染的病人
只有65例病例和4例死亡
超过16,000例正在接受治疗

实施例1具有模式[数字]患者，而实施例2和3遵循模式[数字]病例。但是，示例2说明了数字，而示例3提供了数字。简单的正则表达式无法捕获我们的数据集中发现的可变性;我们需要为每个实体类型定义几十个正则表达式，正则表达式的刚性将限制我们能够以新的看不见的模式识别实体的可能性。

为注释准备数据需要许多步骤，以便可以训练NER：

我们首先查询维基百科的API，以获得我们的训练集中使用的文章的完整修订历史。
我们通过从文本中剥离所有MediaWiki标记来清除每个修订，以及删除表。
我们计算了连续文章对之间的差异（即文本变化）。这提供了在两个文章修订版之间删除和添加的行。我们保留了所有文章修订中所有行添加的列表.
此结果列表中的许多行彼此相似（例如，“有45个新案例。”→“有56个新案例。”）。为了训练NER，没有必要保留高度相似或相同的线。因此，我们通过使用三元组作为Jaccard方程中的组成部分计算每个句子之间的Jaccard相似性，将每一行分成句子并删除相似的句子。用于测量两组A和B之间相似性的Jaccard相似性方程，定义为，通常用于近似重复检测（Manning，Raghavan和Schütze2009）。我们只保留与目前保留的所有不同句子的相似度不大于0.75.
我们将每行分成标记，以创建一个与斯坦福大学的NER.
最后，我们使用斯坦福大学的词性（POS）标记器（Toutanova et al.2003）为每个标记添加POS功能

为了训练NER，我们注释了根据以上方法生成的以下14篇维基百科文章的数据集：a）西非的埃博拉病毒流行9，b）海地霍乱爆发10，c）2012年中东呼吸综合症冠状病毒爆发11， d）新英格兰复合中心脑膜炎爆发12，e）甲型流感病毒亚型H7N913，f）2013-14基孔肯雅热疫情14，g）基孔肯雅热爆发15，h）登革热爆发16，i）新加坡2013年登革热暴发17，j）2011年登革热疫情爆发巴基斯坦18，k）2009-10西非脑膜炎爆发19，l）21世纪流行性腮腺炎20，m）津巴布韦霍乱疫情21，以及n）2006年印度登革热疫情22。整个清理和注释的数据集包含大约55,000个令牌。内部 - 外部开始（IOB）方案部分由CoNLL-2003共享任务组成，该任务是关于语言无关的命名实体识别（Tjong Kim Sang和De Meulder 2003），用于标记每个标记。 IOB方案提供了将构成实体的令牌序列组合在一起的能力。

注释任务在两个注释器（第一和第二作者）之间分配。为了调整注释器间协议，注释器每个注释三组5,000个令牌。在每组注释之后，识别出差异，并且对注释规则进行了澄清。第三组导致Cohen的kappa系数为0.937，表明注释者之间的一致性很高。

写在最后：
1.本文是对Wikipedia文章中的数字进行了命名实体识别，主要的数字类别是：死亡数，病例数及住院数。值得借鉴的是，数据来源并没有使用wikipedia dump的全部数据，而是利用wikipedia’s API，从中选取了14篇文章，进行分词标注得到的语料数据集。
2.本文以非洲埃博拉病毒作为一个case study，对其中的表格信息及数字修改日志进行追踪，生成时间序列数据，进行分析、监控以及预测。