UMLS 和 SNOMED-CT 对结果概念编码的适用性-CSDN博客

本文链接：https://blog.csdn.net/Kakaxiii/article/details/143840260

美国医学信息学协会杂志》，第 30 卷，第 12 期，2023 年 12 月，

https://academic.oup.com/jamia/article/30/12/1895/7249289?login=false

抽象的

客观的

结果是重要的临床研究信息。尽管在从 PubMed 自动提取 PICO（人群、干预、比较和结果）实体方面取得了进展，但这些实体很少用标准术语编码以实现语义互操作性。本研究旨在评估统一医学语言系统 (UMLS) 和 SNOMED-CT 在编码随机对照试验 (RCT) 摘要中的结果概念方面的适用性。

材料和方法

我们反复开发并验证了结果注释指南，并在 PubMed 上随机选择的 500 篇 RCT 摘要的结果和结论部分手动注释了具有临床意义的结果实体。根据既定的启发式方法，提取的结果通过 MetaMap 完全、部分或未映射到 UMLS。对选定的未映射结果实体执行了手动 UMLS 浏览器搜索，以进一步区分 UMLS 和 MetaMap 错误。

结果

2617 个结果概念中只有 44% 在 UMLS 中得到完全覆盖，其中 67% 是复杂概念，需要组合 2 个或更多 UMLS 概念才能表示。SNOMED-CT 是 61% 完全映射结果的来源。

讨论

代谢和营养、感染和传染病等领域需要扩大 UMLS 和 MetaMap 中的结果概念覆盖范围。未来有必要开展类似工作，以评估 P、I、C 实体的术语覆盖范围。

结论

临床结果的计算表示对于临床证据的提取和评估非常重要，但正如本研究证明的那样，它面临着 UMLS 和 SNOMED-CT 中固有的复杂性以及这些概念的覆盖范围不足的挑战。

在论文中，UMLS 主要用于对从随机对照试验（RCT）摘要中提取的结果概念进行编码和映射，以评估其在表示结果元素方面的适用性，具体使用方式如下：

数据来源与筛选
- 从 ClinicalTrials.gov 选取 2010 - 2021 年完成的、来自美国的 2/3 期干预性研究且有结果的临床试验，通过 PubMed Entrez 编程工具将其与 PubMed 文章关联，最终随机选择 500 篇 RCT 摘要。这些摘要对应的临床试验涵盖 30 个不同疾病领域，如代谢与营养、内分泌、心血管 / 血管疾病等。
结果元素标注
- 由 3 名注释者根据开发的标注指南识别每篇摘要中的结果元素，经过讨论、修订指南及重新标注后，确保标注结果具有一定的可靠性（标注者间一致性中等），最终从 500 篇摘要中提取出 2731 个结果用于后续分析。
映射过程
- 将提取的结果作为输入，通过严格版本的 MetaMap 2018（语义 NLP 的默认工具，使用其 Python 包装器 pymetamap）进行半自动映射到 UMLS。在映射过程中，对不被 MetaMap 识别的字符进行显式写出，除词义消歧设置为返回每个输入概念的最佳映射外，其他参数保持默认，不使用分数阈值，对于多个等效 “最佳映射” 由研究者选择偏好的映射。
映射结果分类与分析
- 分类：映射结果被手动分为完全映射、部分映射和未映射三类。完全映射要求 UMLS 映射完全代表结果概念的实质部分；部分映射包括 UMLS 映射返回部分实质结果概念、映射过宽或过窄、语义类型不正确等情况；未映射即 UMLS 映射不代表结果概念。同时，对部分映射概念标记原因（如缺少时间或数值组件、语义类型错误等），对未映射概念若存在缩写则额外标记 “-ab”。
- 分析
  - 对 2617 个预处理后的唯一结果分析发现，44% 完全映射到 UMLS，36% 部分映射，20% 未映射。在完全映射的结果元素中，67% 映射到 2 个或更多 UMLS 概念，表明存在复杂结果概念（如 “24 小时动态收缩压” 映射到 “24 小时收缩压” 和 “动态 - 限定词值” 两个 UMLS 概念）。按疾病领域分层分析映射结果，未发现明显模式，但睡眠和新生儿学等疾病领域未映射元素比例较大，且未映射结果元素多集中在少数几篇 PubMed 摘要中。部分映射的主要原因包括缺少实质结果概念的非时间或数值组件、涉及缩写的此类组件缺失、UMLS 映射过窄等。在未映射结果中，78% 包含缩写，最常见的未映射术语有 “tolerated”“safe”“AEs”“AE” 等，且 MetaMap 提取错误是最常见的错误类型。进一步分析因 UMLS 元词库错误（同义或缺失）导致未映射的术语，发现代谢与营养、感染与传染病等疾病领域存在较多空结果，表明这些领域需要在 UMLS 中扩展结果概念覆盖范围。最后，在完全映射的结果元素对应的 1160 个唯一 UMLS CUI 中，61% 以 SNOMED - CT 作为源词汇。
误差分析
- 对于未映射的结果，通过 UMLS 浏览器手动搜索，确定是 UMLS 本身还是 MetaMap 映射过程导致的错误，将错误分为 MetaMap 错误、UMLS 同义错误（UMLS 包含必要概念但与结果概念无同义关系）、UMLS 缺失错误（UMLS 中不存在必要概念）三类，以深入了解 UMLS 在映射结果概念时的问题。

通过以上使用方式，论文全面评估了 UMLS 在表示 RCT 摘要结果元素方面的覆盖度和复杂性，发现 UMLS 虽有一定适用性，但在结果概念覆盖上存在不足，尤其在某些疾病领域，为后续改进 UMLS 以更好支持结果信息标准化提供了依据。

MetaMap 提取错误是指在将从随机对照试验（RCT）摘要中提取的结果元素映射到统一医学语言系统（UMLS）的过程中，由于 MetaMap 工具自身的问题导致无法正确映射的情况。

未映射结果中的体现

在研究中，对 20% 未映射的结果元素进行分析发现，其中 78% 包含缩写，而 MetaMap 提取错误是未映射结果中最常见的错误类型。例如，对于一些常见的未映射术语，如 “tolerated”（95 次出现）、“AEs（adverse events）”（33 次出现）、“HbA1c”（15 次出现）等，部分是由于 MetaMap 提取错误导致无法映射到 UMLS。

具体示例

以 “HbA1c” 为例，它在 15 次出现中被标记为 MetaMap 提取错误，说明 MetaMap 在处理这个术语时未能找到合适的 UMLS 映射。这可能是因为 MetaMap 在识别和解析该术语时出现了问题，未能准确地将其与 UMLS 中的概念进行匹配。

影响因素

MetaMap 在进行词义消歧时主要考虑输入的结果元素本身的文本，但在处理缩写等情况时面临困难，尤其是当缩写周围没有上下文时。例如，对于一些疾病领域特定的缩写，由于缺乏足够的上下文信息，MetaMap 难以确定其准确含义，从而导致提取错误。在研究中，即使将部分未映射缩写（如前 5 个独特未映射缩写：AEs、TEAEs、HbA1c、OS、ORR）在其出现的最新 PubMed 摘要的第一句中作为输入再次尝试映射（排除同时包含缩写及其完整形式的句子），仍未得到完全映射，说明在这些情况下，MetaMap 的提取错误并非简单地由于缺乏上下文导致，可能涉及到其对特定术语的识别和处理机制存在不足。

与其他错误类型对比

与 UMLS 同义错误（UMLS 包含必要概念但与结果概念无同义关系）和 UMLS 缺失错误（UMLS 中不存在必要概念）相比，MetaMap 提取错误是在 UMLS 本身可能具备相关概念的情况下，由于 MetaMap 工具的问题而未能成功映射结果元素。例如，某些术语可能在 UMLS 中有对应的概念，但 MetaMap 无法准确识别并建立映射关系，这与 UMLS 中完全不存在概念（UMLS 缺失错误）或存在概念但无同义关系（UMLS 同义错误）是不同的情况。MetaMap 提取错误的存在表明，即使 UMLS 具备一定的术语覆盖度，工具在实际提取和映射过程中的准确性仍有待提高，这也为后续改进 MetaMap 或探索其他映射方法提供了方向。

讨论

UMLS 在表示 RCT 摘要的结果元素时覆盖率较低，仅为 44%。即使将仅由于缺少时间成分或数值而部分映射的映射视为完整映射，UMLS 覆盖率也仅增加 5%，达到 49%。此外，大约一半的部分映射缺少结果概念的实质性成分（与时间或数值无关）。最后，MetaMap 发现很大一部分映射（20%）未映射。这表明 UMLS 有很大的改进空间，可以更好地表示结果元素。UMLS 中缺少结果概念的情况可能会对下游证据合成产生最大影响，并表明需要改进组成 UMLS 的生物医学源词汇。

在完全映射的结果元素中，67% 是复杂的，这表明没有一个单一的原子 UMLS 概念来表示结果元素。复杂结果可分为两类，其中一类称为后协调。后协调表明，组成结果概念的各个 UMLS 概念可以组合起来以完全捕获结果概念。后协调的一个例子是结果概念“ADHD 症状控制”，它映射到 UMLS 概念“注意力缺陷多动障碍”(C1263846) 和“症状控制 (方案/治疗)”(C1274136)。然而，复杂结果也可能由语义元素组成，这些元素需要比简单组合其相应的 UMLS 概念更深入的方法。26例如，结果概念“病变面积从基线减少大于或等于 20%”可以映射到 UMLS 概念“大于”（C0439093）、“等于”（C0205163）、“20%”（C3842589）、“减少”（C0547047）、“基线”（C1442488）、“病变”（C0221198）和“面积”（C0205146）。但是，由于布尔和定义连接器的语义元素，需要付出额外的努力来整合 UMLS 概念，以便它们能够捕捉结果概念的含义。26因此，在“复杂”的总体指定中，可能需要广泛的 UMLS 概念操作。

SNOMED-CT 仅是 61% 完全映射的 MetaMap CUI 的来源，考虑到它作为临床概念的参考术语的作用，这并不奇怪。然而，它可以为那些希望在 SNOMED-CT 用于概念表示的趋势日益增加的情况下标准化 PICO 元素的人提供警告。虽然 SNOMED-CT 在表示结果概念方面确实发挥了作用，但 UMLS 拥有超过 100 个源词汇的元词库，更适合处理结果元素的可变性和复杂性。

未映射的概念中很大一部分包含缩写。MetaMap 中的词义消歧考虑了周围的文本以产生最佳的映射，但在我们的例子中，MetaMap 中呈现的唯一文本是结果元素本身。27这导致映射困难，特别是在缩写周围没有文本的情况下。为了更好地理解周围环境的影响，前 5 个独特的未映射缩写 (AE、TEAE、HbA1c、OS 和 ORR) 被用作 MetaMap 的输入，位于它们出现的最新 PubMed 摘要的第一句中。不考虑同时包含缩写和其完整形式的句子。这 5 个缩写中存在所有 3 个未映射的错误指示 (MetaMap 错误、UMLS 同义词错误和 UMLS 缺失错误)。在这 5 种情况下，包括周围环境均不会导致缩写的完整映射。因此，需要做更多的工作来发现何时在缩写周围添加上下文可以改善 MetaMap 词义消歧并因此改善映射。此外，缩写通常不会在论文摘要中展开。因此，当完整形式存在于 UMLS 中而缩写不存在时，我们的方法可能会错误地表示 MetaMap 和 UMLS 的功能。

这项工作还有其他几个局限性。首先，我们允许结果元素的非实质性组成部分被错误映射。例如，结果元素“总体低血糖”映射到“总体出版物类型”和“低血糖”，并被指定为完全映射，即使术语“总体”没有正确映射。这可能会夸大 UMLS 的覆盖率分数。其次，如果仅存在时间单位，则时间成分不被认为是完全表示的。例如，“天”不被认为是“第 8 天”的代表。但是，如上所述，包含这些实例将使覆盖率改变不到 5%。第三，使用了 2018 版 MetaMap，因为它是与 Mac 兼容的最新版本。但是，摘要是从 2021 年之前的临床试验中收集的，因此 MetaMap 无法识别某些缩写，例如 COVID-19。最后，映射是由 1 名研究人员执行的，该研究人员并不具备所代表的许多疾病领域的专业知识，因此，尽管进行了研究以确认映射名称，但更复杂术语的映射名称可能会存在错误。

除了探索周围环境对结果元素短语映射的影响之外，未来的工作还包括对其他 PICO 元素 (PIC) 执行规范化过程，并与领域专家合作，特别是代谢和营养、感染和传染病领域的专家，将缺失术语合并到 UMLS 中并改进现有概念的 UMLS 同义词。

结论

这项研究深入了解了 UMLS 和 SNOMED-CT 在表示结果要素方面的适用性，并指出了 UMLS 在支持结果信息规范化方面的改进领域。UMLS 在表示 RCT 摘要中的 PICO 元素方面具有巨大潜力，提高其对这些元素的覆盖范围对于规范化至关重要，这反过来又可以实现更高效的证据搜索和检索，而不会丢失信息。

问题

在循证医学实践中，从 PubMed 自动提取的 PICO（Population, Intervention, Comparison, and Outcome）实体虽有进展，但这些实体很少用标准术语编码以实现语义互操作性，尤其在结果（Outcome）元素方面，其在 RCT 摘要中高度可变，且现有的命名实体识别（NER）模型在结果元素标注上存在一致性差或被完全舍弃的问题，影响了证据检索和综合分析。

挑战

结果元素的多样性和复杂性：RCT 摘要中的结果元素变化多样，难以准确界定和统一标准，导致不同注释者之间的一致性难以保证，增加了对其进行准确编码和映射的难度。
术语标准化工具的局限性：UMLS 和 MetaMap 在处理结果概念时存在不足，如 UMLS 对结果元素的覆盖度有限，MetaMap 在映射过程中会出现提取错误、对缩写处理困难等问题，影响了结果概念的准确映射和标准化。
缺乏对多种疾病领域的全面评估：以往研究多聚焦于特定疾病领域，缺乏对广泛疾病领域中 PICO 元素术语适用性的全面评估，难以满足实际临床研究中对不同疾病结果元素标准化的需求。

创新点

系统的评估方法：通过迭代开发和验证结果注释指南，手动注释大量（500 篇）RCT 摘要中的结果实体，并基于 MetaMap 和 UMLS 进行半自动映射分析，全面评估 UMLS 和 SNOMED - CT 在编码结果概念方面的适用性，涵盖多种疾病领域，为后续研究提供了详细的数据和分析基础。
深入的错误分析：对未映射结果进行细致分类（MetaMap 错误、UMLS 同义错误、UMLS 缺失错误），深入探究 UMLS 和 MetaMap 在处理结果概念时的问题，为针对性改进提供了依据，有助于更准确地理解和解决术语映射过程中的误差来源。

贡献

揭示术语适用性现状：明确 UMLS 在表示 RCT 摘要结果元素方面覆盖度较低（44%）且存在复杂性问题（67% 的完全映射结果元素为复杂概念），指出了 UMLS 在结果概念表示上的不足，为进一步改进提供了方向。
强调领域特定需求：发现代谢与营养、感染与传染病等疾病领域在 UMLS 和 MetaMap 中需要扩展结果概念覆盖范围，提示后续研究和改进工作应重点关注这些领域，以提高整体结果元素的标准化水平。

提出的方法

摘要选择
- 从 ClinicalTrials.gov 选取特定条件（2010 - 2021 年、2/3 期、完成、有结果、美国）的临床试验，通过 PubMed Entrez 编程工具与 PubMed 文章关联，随机抽取 500 篇 RCT 摘要，并根据疾病领域分类，排除研究方案或试验设计类摘要。
摘要注释
- 由 3 名注释者依据开发的注释指南识别结果元素，先对 140 篇摘要讨论修订指南，再用 360 篇评估，之后更新指南并对额外 140 篇（来自 EBM - NLP 语料库）注释评估新指南，最终确定可靠的结果元素标注。
半自动映射
- 用严格版本的 MetaMap 2018（通过 pymetamap）将提取结果映射到 UMLS，对不识别字符显式写出，除词义消歧设为返回最佳映射外默认参数，无分数阈值，多最佳映射时研究者选偏好映射，然后手动将映射结果分类（完全、部分、未映射），并对部分映射标记原因，未映射若含缩写额外标记。
半自动映射分析
- 对结果概念预处理（小写、单数化、去标点）后，计算完全映射的结果元素占比（覆盖度）和完全映射结果中映射到多个 UMLS 概念的占比（复杂性），确定完全映射元素的 UMLS CUI 中 SNOMED - CT 作为源词汇的比例。
误差分析
- 对未映射结果通过 UMLS 浏览器手动搜索，根据 UMLS 是否包含必要概念及与结果概念的同义关系，将错误分为 MetaMap 错误、UMLS 同义错误、UMLS 缺失错误三类，进一步分析特定未映射术语（如含缩写术语）在不同疾病领域的情况。

指标

覆盖度（Coverage）：计算完全映射到 UMLS 的唯一结果占总唯一结果的百分比，衡量 UMLS 对结果概念的覆盖程度。
复杂性（Complexity）：计算完全映射的唯一结果中映射到 2 个或更多 UMLS 概念的结果占完全映射结果的百分比，反映结果概念在 UMLS 中表示的复杂程度。
【
在这篇论文中，“复杂性问题” 是指在将随机对照试验（RCT）摘要中的结果元素映射到统一医学语言系统（UMLS）时，完全映射的结果元素所呈现出的复杂情况。

具体来说，当一个结果元素被完全映射到 UMLS 时，其中有相当一部分（67%）的结果元素映射到了 2 个或更多的 UMLS 概念。例如，“24 小时动态收缩压” 这个结果元素可能会映射到 “24 小时收缩压” 和 “动态 - 限定词值” 两个 UMLS 概念。这表明结果元素在 UMLS 中的表示不是简单的一一对应关系，而是存在复杂的概念组合情况。

这种复杂性问题带来了以下影响：
理解和处理难度增加：对于研究人员来说，需要处理多个相关的 UMLS 概念来准确理解一个结果元素，这增加了分析和利用这些信息的难度。
标准化的挑战：在尝试对结果元素进行标准化时，这种复杂的映射关系使得难以确定一个统一的、简洁的标准术语来准确表示结果元素，不利于实现语义互操作性。
数据利用的复杂性：在后续的证据检索和综合分析过程中，复杂的概念映射可能导致数据利用效率降低，因为需要考虑多个概念之间的关系，而不是简单地使用一个单一的标准术语来提取和整合信息。
】

模型结构

该研究未涉及特定模型结构，主要是基于 MetaMap 工具进行结果概念到 UMLS 的映射，MetaMap 在映射过程中利用其内部的词义消歧等机制，但论文未详细阐述其具体模型架构（如神经网络结构等）。

结论

UMLS 在表示 RCT 摘要结果元素方面虽有潜力，但目前覆盖度较低且存在复杂性问题，SNOMED - CT 作为源词汇在完全映射结果中有一定比例，代谢与营养、感染与传染病等领域需扩展结果概念覆盖范围，改进 UMLS 对结果信息的标准化支持对临床证据提取和评估至关重要。

剩余挑战和未来工作

数据和方法局限性改进
- 解决映射过程中对非实质性组件映射错误、时间组件表示不完整、MetaMap 版本与数据不兼容（如对新缩写识别问题）以及映射者专业知识局限等问题，以提高映射准确性和结果可靠性。
- 【
  映射过程中对非实质性组件映射错误
  
  在论文研究的映射过程中，“非实质性组件” 是指那些在结果概念中不影响其核心意义表达的部分，例如 “overall（总体）”“total（总计）”“score (s)（分数）” 等术语被定义为非实质性的。然而，在映射过程中，却允许这些非实质性组件被错误地映射。
  
  比如，对于结果元素 “overall hypoglycemia（总体低血糖）”，它映射到了 “overall publication type（总体出版类型）” 和 “hypoglycemia（低血糖）”，并被指定为完全映射。但实际上，“overall” 这个词在 “overall hypoglycemia” 中的含义并没有被正确映射，它被错误地关联到了 “publication type”，而不是在结果概念中应有的修饰意义。这种情况可能导致对结果概念的理解产生偏差，并且在一定程度上 “虚增” 了 UMLS 的覆盖度评分，因为按照正确的理解，这种映射并不完全准确地代表了结果元素的实质含义。
  
  时间组件表示不完整
  
  时间组件在结果概念中是一个重要的部分，但在映射过程中，如果仅存在时间单位，而没有完整的时间相关信息，就被认为是时间组件表示不完整。
  
  例如，当结果元素中仅出现 “day（天）” 时，它不能被视为完全代表了像 “day 8（第 8 天）” 这样具体的时间概念。在评估 UMLS 对结果元素的映射时，这种仅包含部分时间信息的情况被认为没有充分表示出结果概念中的时间组件，可能会影响对结果的准确理解和比较。不过，论文中也提到，即使将这些时间组件表示不完整的情况考虑为完全映射，对整体覆盖度的影响也相对较小（小于 5%），但这仍然是映射过程中存在的一个问题，可能在某些对时间精度要求较高的分析场景中产生影响。
  】
探索上下文影响：进一步研究缩写周围上下文对 MetaMap 词义消歧和映射结果的影响，确定如何利用上下文信息改善映射效果，提高对包含缩写的结果概念的处理能力。
扩展到其他 PICO 元素和领域：将标准化过程应用于其他 PICO 元素（PIC），并与更多领域专家合作，尤其是代谢与营养、感染与传染病领域，纳入缺失术语到 UMLS 并改善现有概念同义关系，全面提升 PICO 元素的标准化水平。

数据集

数据来源为 PubMed 上的 500 篇随机选择的 RCT 摘要，其对应的临床试验来自 ClinicalTrials.gov（2010 - 2021 年、2/3 期、完成、有结果、美国）。在研究过程中，这些数据经过注释者标注结果元素、MetaMap 映射、预处理等操作，用于分析 UMLS 和 SNOMED - CT 对结果概念的编码适用性，数据可根据合理请求由通讯作者共享。

MetaMap 映射效果不好主要有以下原因：