目录
1.3.5. MetamorphoSys:UMLS 安装和定制程序
Lung Diseases, Obstructive(C0600260, L0024117, S0058463)
Obstructive Lung Diseases(C0600260, L0024117, S0068169)
Lung Disease, Obstructive(C0600260, L0024117, S0058458)
Obstructive Lung Disease(C0600260, L0024117, S0068168)
3.3.4. 概念名称和来源(文件 = MRCONSO.RRF)
3.3.5. 简单概念和原子属性(文件 = MRSAT.RRF)
3.3.10. 共现概念(文件 = MRCOC.RRF - 2013AA 版本之后,此文件在 UMLS 中不再可用。)
3.3.11. 可计算层次结构 (文件 = MRHIER.RRF)
3.3.16. 概念名称排序 (文件=MRRANK.RRF)
3.3.17. 模糊术语标识符 (文件 = AMBIGLUI.RRF)
3.3.18. 模糊字符串标识符(文件 = AMBIGSUI.RRF)
3.3.19.1. 已删除的概念(文件 = CHANGE/DELETEDCUI.RRF)
3.3.19.2. 合并概念(文件 = CHANGE/MERGEDCUI.RRF)
3.3.19.3. 已删除条款 (文件=CHANGE/DELETEDLUI.RRF)
3.3.19.4. 合并条款(文件 = CHANGE/MERGEDLUI.RRF)
3.3.19.5. 已删除的字符串(文件 = CHANGE/DELETEDSUI.RRF)
3.3.19.6. 已退役的 CUI 映射(文件 = MRCUI.RRF)
3.3.19.7. AUI 移动 (文件 = MRAUI.RRF)
3.3.21. 规范化词索引(文件 = MRXNW_ENG.RRF)
3.3.22. 规范化字符串索引(文件 = MRXNS_ENG.RRF)
4.3.10. 共现概念(文件 = MRCOC - 2013AA 版本后,此文件在 UMLS 中不再可用。)
4.3.15. 模糊术语标识符 (文件 = AMBIG.LUI)
4.3.16. 模糊字符串标识符(文件 = AMBIG.SUI)
4.3.17.1. 已删除的概念(文件 = DELETED.CUI)
4.3.17.2. 合并概念(文件 = MERGED.CUI)
4.3.17.3. 已删除术语(文件 = DELETED.LUI)
4.3.17.4. 合并术语(文件 = MERGED.LUI)
4.3.17.5. 已删除的字符串(文件 = DELETED.SUI)
4.3.17.6. 已停用的 CUI 映射(文件 = MRCUI)
4.3.19. 规范化词汇索引(文件 = MRXNW.ENG)
4.3.20. 规范化字符串索引(文件 = MRXNS.ENG)
6.4.3.2. - 词形变化类型 (File = lrtyp)
6.4.3.7. - 缩写和首字母缩略词 (file = lrabr)
6.4.3.8. - 拼写变体 (file = lrspl)
6.4.3.12. - 单词索引. (file = lrwrd)
7使用 UMLS 术语服务 (UTS)Using the UMLS Terminology Services (UTS)
8 MetamorphoSys - UMLS 安装和定制程序
使用手册章节介绍
第 1 章 UMLS 简介
本章介绍了 UMLS 的用途、可以使用不同 UMLS 组件的条件以及这些条件与开放访问/开放源代码原则的关系。它还简要介绍了每个 UMLS 组件及其之间的关系,建议了建立对 UMLS 特性和功能的理解的方法,并提供了其他 UMLS 参考资料的列表。
第 2-4 章。元同义词库
这些章节介绍了 Metathesaurus 的内容和结构,这是一个大型概念导向型数据库,包含大量生物医学和健康相关词汇、分类和编码系统。Metathesaurus 根据指定的基本语义类型对这些概念进行分类,并使这些术语中的所有信息都可以通过通用的、完全指定的文件格式访问。Metathesaurus 包括法律和法规指定的编码集和术语,作为美国临床和行政健康数据电子交换的标准。
第 5 章 语义网络
本章介绍了语义网络的内容和结构,语义网络是一个小型数据库,其中包含有关基本语义类型或类别的信息,元词库概念可能被分配到这些类别中。语义网络定义了这些语义类型之间以及语义类型的广泛分组之间可能存在的关系,例如表示紊乱的所有类型(疾病或综合症、后天异常、肿瘤过程等)。
第 6 章 专业词汇和词汇工具
本章介绍以下程序的内容和结构:
-
SPECIALIST 词典,一个包含常用英语单词和生物医学词汇的句法、形态和正字法信息的数据库。SPECIALIST 词典对自然语言处理应用非常有用。
-
词汇工具可检测并抽象出自然语言中遇到的词形变化、格和词序变化。其中一个程序 MetaMap Transfer (MMTx) 专门用于将任意术语映射到元词库中的概念,或者等效地,在自由文本中发现元词库概念。
第 7 章 UMLS 术语服务
本章介绍如何通过下载、应用程序编程接口和交互式 Web 浏览器从 UMLS 术语服务访问 UMLS 资源。
第 8 章 MetamorphoSys
本章介绍 MetamorphoSys,它是所有 UMLS 知识源的安装程序和 Metathesaurus 的自定义程序。您必须使用 MetamorphoSys 来安装知识源。MetamorphoSys 允许您以 7 位 ASCII(默认)或 Unicode UTF-8 字符集输出数据。MetamorphoSys 还为 Metathesaurus 提供了两种文件格式选项(Rich Release Format 或 Original Release Format),并提供了许多其他自定义选项。
1 UMLS 简介
最后更新:2009 年 9 月 10 日。
1.1. UMLS 的目的
统一医学语言系统 (UMLS) 促进了计算机系统的开发,这些计算机系统的行为就像它们“理解”生物医学和健康语言一样。为此,NLM 制作并分发 UMLS 知识源(数据库)和相关软件工具(程序)。开发人员使用知识源和工具来构建或增强创建、处理、检索和集成生物医学和健康数据和信息的系统。知识源具有多种用途,可用于执行涉及信息类型(例如患者记录、科学文献、指南和公共卫生数据)的多种功能的系统。相关软件工具可帮助开发人员定制或使用 UMLS 知识源用于特定目的。词汇工具与 UMLS 知识源结合使用效果更佳,但也可以单独使用。
1.2. UMLS 的使用条件
所有 UMLS 知识源和相关软件工具对美国和国际用户均免费。
语义网络、专业词典和相关词汇工具可在互联网上根据开放条款访问,其中包括对其使用的适当确认。查看语义网络、专业词典和词汇工具的使用条款和条件。
要使用 Metathesaurus,您必须签订许可协议。这是因为 Metathesaurus 包含由许多不同版权所有者制作的词汇内容以及 NLM 制作的大量内容。
设置许可协议是通过 Web 完成的。一旦许可协议到位,Metathesaurus 的大部分内容都可以在非常开放的条件下使用。您预先存在的具有使用限制的内容许可证(例如 CPT、MedDRA 或 NIC)将涵盖您对 Metathesaurus 中分发的内容的使用。一些需要授权才能使用其内容的词汇表制作者通常会授予免费许可。
UMLS 元同义词库使用许可协议的全文出现在 UMLS 术语服务 (UTS) 中,第 7 章将对此进行讨论。
1.3. UMLS 知识源和相关工具
UMLS 知识源有三种:元词库、语义网络和 SPECIALIST 词典。它们随附了多种便于使用的工具,包括 MetamorphoSys 安装和自定义程序。
1.3.1. 元同义词库
元词库是一个大型、多用途、多语言的词汇数据库,其中包含有关生物医学和健康相关概念、其各种名称以及它们之间的关系的信息。它由大量词库、分类、代码集和受控术语列表的电子版本构建而成,这些词库、分类、代码集和受控术语列表用于患者护理、医疗服务计费、公共卫生统计、索引生物医学文献和/或基础、临床和医疗服务研究。在本文档中,这些被称为元词库的“源词汇”。在元词库中,所有源词汇都以通用、完全指定的数据库格式提供。
当前版本的 Metathesaurus 中存在的源词汇的完整列表出现在当前 UMLS 发布文档的UMLS 源词汇文档页面上。该列表表明哪些编码集和术语被法律和法规指定为临床和行政健康数据电子交换的美国标准。
元词库按概念或含义组织。本质上,它将同一概念的替代名称和观点联系起来,并确定不同概念之间的有用关系。元词库中的所有概念都分配了至少一种来自语义网络 (1.3.2) 的语义类型,以便在语义网络所表示的相对一般的层面上提供一致的分类。元词库中概念名称或字符串中出现的许多单词和多词术语也出现在专业词典 (1.3.3) 中。词汇工具用于生成元词库的单词、规范化单词和规范化字符串索引。MetamorphoSys (1.3.5) 用于安装 UMLS 知识源并定制元词库。
必须定制元同义词库才能有效使用。
对元同义词库及其文件结构的完整描述从本文档的第 2 章开始。
1.3.2. 语义网络
语义网络为元词库中表示的所有概念提供了一致的分类,并提供了这些概念之间的一组有用关系。有关特定概念的所有信息都可以在元词库中找到;网络提供有关可能分配给这些概念的基本语义类型或类别集的信息,并定义语义类型之间可能存在的关系集。语义网络包含 133 种语义类型和 54 种关系。语义网络是分配给元词库中概念的语义类型的权威。网络通过文本描述和其层次结构中固有的信息来定义这些类型。
语义类型是网络中的节点,它们之间的语义关系是链接。语义类型主要分为生物体、解剖结构、生物功能、化学物质、事件、物理对象以及概念或想法。UMLS 语义类型的当前范围相当广泛,允许对多个领域的各种术语进行语义分类。
语义网络及其文件结构的完整描述见本文档的第 5 章。
1.3.3. 专业词汇和词汇工具
SPECIALIST 词典旨在成为包含许多生物医学术语的通用英语词典。涵盖范围包括常用英语单词和生物医学词汇。每个单词或术语的词典条目记录了 SPECIALIST 自然语言处理系统所需的句法、形态和正字法信息。
词汇工具旨在解决自然语言单词和术语的高度可变性。单词通常有几种屈折形式,这些屈折形式可以被视为同一个单词的实例。例如,动词“treat”有三种屈折变体:
-
treats — 第三人称单数现在时形式
-
treated——过去式和过去分词形式
-
治疗——现在分词形式
元词库和其他受控词汇表中的多词术语除了其屈折和字母大小写变体外,还可能有词序变体。词汇工具允许用户抽象出几种类型的变体,包括英式英语/美式英语拼写变体和字符集变体。
本文档的第 6 章介绍了 SPECIALIST 词典、其文件结构和词汇程序的完整描述。
1.3.4. UMLS 术语服务
UMLS 术语服务 (UTS) 是一组基于 Web 的交互式工具和程序员界面,允许用户和开发人员访问 UMLS 知识源,包括元同义词库中的词汇表。它还包含 UMLS 数据文件的下载站点。UTS 是了解 UMLS 资源内容的有用起点。由于它包含完整的元同义词库文件,因此许多 UTS 组件的访问仅限于已签署UMLS 元同义词库使用许可协议的注册用户。
本文档的第 7 章介绍了 UTS 及其功能的完整描述。
1.3.5. MetamorphoSys:UMLS 安装和定制程序
MetamorphoSys 是一款跨平台 Java 应用程序,如果本地安装了 UMLS 知识源(元词库、语义网络和 SPECIALIST 词典),则必须使用该应用程序。MetamorphoSys 还支持创建和细化元词库的自定义子集。一般而言,元词库必须进行自定义才能在特定应用程序中有效使用。
MetamorphoSys 首先引导您安装一个或多个 UMLS 知识源,然后定制 Metathesaurus 以供本地使用。有多种选项可供选择,例如包含或排除特定源词汇表、语言和术语类型、指定 Metathesaurus 文件的输出字符集(7 位 ASCII 或 Unicode UTF-8)和输出格式(Rich Release Format 或 Original Release Format)。
MetamorphoSys 的完整描述见本文档的第 8 章。
1.4. 入门
UMLS 资源是功能强大且不同寻常的工具,旨在供系统开发人员使用。以下是一些关于如何开始了解 UMLS 特性和功能以及它们增强应用程序的潜力的建议。
扫描整个 UMLS 文档以了解可用资源的范围。
如果您对 Metathesaurus 感兴趣,请花点时间阅读文档的第 2 章。那里的背景知识将使您更容易理解第 3 章和第 4 章中的实际文件描述。
使用 UMLS 术语服务请求使用 UMLS 元词库的许可协议。需要许可协议是因为元词库包含由许多不同版权持有者制作的词汇表。您可以在最小限制下使用元词库的大部分内容,但如果您希望使用元词库中包含的某些词汇表,则可能需要从个别词汇表制作者处获得额外许可。UMLS 许可协议中解释了各种限制级别。
一旦您申请了许可证并激活了您的 UTS 帐户,请使用 UTS 对元同义词库、语义网络和专家词典的内容以及对应用程序开发人员有用的其他特殊资源进行初步浏览和探索。
【要用UTS访问,MetamorphoSys 可以从UTS下载,用来生成自定义子集】
如果您需要 UMLS 文件的本地副本,请使用本文档第 8 章中描述的 MetamorphoSys 安装和自定义程序来生成它们。您可能会发现尝试各种选项来生成自定义子集很有用。MetamorphoSys 可从 UTS 下载,其中包含 UMLS 数据文件。
1.5. 有关 UMLS 的其他信息来源
除了提供指向 UMLS 文档和 UTS 的链接外,UMLS 网站还链接到有关 UMLS 知识源和 UTS 的资料表、常见问题解答、培训材料以及有关使用 UMLS 的 NLM 应用程序和研究项目的信息。UMLS快速入门指南提供了 UMLS 的简要概述,并包含指向更详细信息的链接。可以从 MEDLINE/PubMed 检索有关 UMLS 项目和资源的文章。单击此处获取当前搜索。
【这里把关键词换成UMLS后,能找到大量相关研究,对科研很有用】
还提供了一份全面的 1986-1996 年 UMLS 项目书目,涵盖了未编入 MEDLINE/PubMed 索引的其他论文。
强烈建议 UMLS 用户订阅 UMLS 用户列表服务。NLM 使用列表服务向用户寻求建议并分发有关即将推出的 UMLS 开发的新闻;用户分享经验或获得有关使用 UMLS 资源的建议。要订阅,请向vog.hin.tsil@vrestsil
发送电子邮件,其中包含以下消息:SUBSCRIBE UMLSUSERS-L <your full name>。要取消订阅,请向vog.hin.tsil@vrestsil发送电子邮件,其中包含以下消息:SIGNOFF UMLSUSERS-L <your full name>。要在订阅后向列表发送消息,请发送电子邮件至vog.hin.tsil@L-SRESUSLMU。要访问订阅信息和列表存档,请转到UMLSUSERS-L Listserv 网页。
2 元同义词库
最后更新:2021 年 8 月 20 日。
2.1. 概述
元词库是一个非常庞大、多用途和多语言的词汇数据库,其中包含有关生物医学和健康相关概念、其各种名称以及它们之间的关系的信息。元词库专为系统开发人员使用而设计,它基于各种词库、分类、代码集和受控术语列表的电子版本,这些词库用于患者护理、医疗服务计费、公共卫生统计、索引和编目生物医学文献以及/或基础、临床和医疗服务研究。这些被称为元词库的“源词汇”。元词库一词借鉴了韦氏词典对前缀“meta”的第三个定义,即“更全面、超越”。从某种意义上说,元词库超越了它所包含的特定词库、词汇和分类。
元同义词库按概念或含义组织。本质上,它将同一概念的不同名称和观点联系起来,并识别不同概念之间的有用关系。
元同义词库与其他 UMLS 知识源(语义网络和专业词典)相链接。元同义词库中的所有概念都分配给语义网络中的至少一种语义类型。这在语义网络所表示的相对通用的层面上为元同义词库中的所有概念提供了一致的分类。元同义词库中概念名称或字符串中出现的许多单词和多词术语也出现在专业词典中。词汇工具用于生成元同义词库的单词、规范化单词和规范化字符串索引。
【词汇工具在第六章】
MetamorphoSys是用于定制 Metathesaurus (元词库)以用于特定目的的软件工具。MetamorphoSys 也是所有 UMLS 资源的安装程序。UMLS 许可证持有者可以从UMLS 网站下载UMLS 知识源。为确保功能正常,您应将所有 UMLS 数据和 zip 文件下载并解压到同一目录中。
2.1.1. 元同义词库的范围
元同义词库的范围由其源词汇表的组合范围决定。许多关系(主要是同义词)、概念属性和一些概念名称都是在元同义词库的创建和维护过程中由 NLM 添加的,但基本上所有概念本身都来自一个或多个源词汇表。通常,如果某个概念未出现在任何源词汇表中,则它也不会出现在元同义词库中。
2.1.2. 保留源词汇的内容和含义
元词库反映并保留了源词汇中的含义、概念名称和关系。当两个不同的源词汇表对不同的概念使用相同的名称时,元词库会同时表示这两种含义,并指出哪种含义存在于哪个源词汇表中。当同一个概念出现在不同源词汇表的不同层次上下文中时,元词库会包含所有层次结构。当两个概念之间的冲突关系出现在不同的源词汇表中时,元词库会同时包含这两种观点。尽管某些源词汇表中的特定概念名称或关系可能具有特殊性并且缺乏表面效度,但它们仍包含在元词库中。
换句话说,元词库并不代表由 NLM 编写的全面的生物医学本体或单一一致的世界观(除了分配给其所有概念的语义类型的高级层面)。元词库保留了其源词汇表中存在的许多世界观,因为这些不同的观点可能对不同的任务有用。
尽管元同义词库保留了源词汇表中的所有含义和内容,但它会将这些信息存储在一种通用格式中。每个词汇表的原生格式都经过仔细研究,然后“反转”为通用的元同义词库格式。对于某些词汇表,这涉及以更明确的格式表示隐含信息。例如,如果源词汇表将其首选概念名称存储为备选概念名称列表中的第一个出现项,则该第一个名称在元同义词库中被明确标记为该源的首选名称。
2.1.3. 需要定制元同义词库
由于它是一种多用途资源,包含来自许多为不同目的而开发的不同源词汇的概念和术语,因此必须对元同义词库进行定制,以便在大多数特定应用程序中有效使用。您关于在元同义词库的定制子集中包含什么内容的决定将对其在系统中的实用性产生重大影响。对某些目的至关重要的词汇源(例如用于实验室数据标准交换的 LOINC)可能对其他目的有害,例如自然语言处理 (NLP)。排除词汇源中发现的原本有用的概念名称子集也很重要,例如缺乏表面效度或在 NLP 中产生虚假结果的非标准缩写或缩写形式。
元词库包含由许多不同版权持有者制作的源词汇。元词库的大部分内容均可根据元词库许可证第 1-11 和 13-16 节中描述的基本(且相当开放)条款使用。但是,一些词汇制作者对元词库中分发的内容的使用施加了额外的限制。许可证第 12 节描述了不同级别的额外限制。适用于各个词汇的级别记录在当前 UMLS 发布文档的UMLS 源词汇文档页面以及MetamorphoSys安装和自定义程序中。如果您已经拥有使用其中一个源词汇的单独许可证,那么您现有的许可证也适用于元词库中分发的该源。在某些情况下,您可能必须请求许可或与词汇制作者协商单独的许可,才能在生产系统中使用该词汇。这些单独的许可或许可协议可能会产生费用。
元词库旨在方便定制。元词库中的所有信息都标有其来源,因此可以确定哪些概念名称、属性和关系来自哪些源词汇表,以及哪些属性和关系是在元词库构建期间添加的。标签允许您通过排除特定源词汇表(包括您没有必要许可证或权限的词汇表)中的信息来对元词库进行子集化。还可以轻松排除具有特定限制级别的所有源词汇表或特定语言的所有信息。除了识别其所含信息的来源、限制级别和语言之外,元词库还包括各种更具体的概念名称标记和关系标签,可帮助您排除与特定应用程序不相关或无用的内容。
MetamorphoSys是随 UMLS 一起分发的安装和定制程序,它可以轻松生成自定义子集。MetamorphoSys 还包括默认设置,可生成通常有用的子集。MetamorphoSys 还可用于更改概念的默认首选名称;更改默认字符集(从 7 位 ASCII 更改为 Unicode UTF8);并在每个 Metathesaurus 文件中包括版本化的词汇表源缩写。
2.1.4. 元同义词库发布格式
您可以从两种关系格式中进行选择:2004 年推出的Rich Release Format (RRF)和Original Release Format (ORF)。两者都是MetamorphoSys的输出选项。所有 Rich Release Format 文件名都带有扩展名 (.RRF)。Original Release Format 文件没有扩展名。这两种格式在第 3 章和第 4 章中进行了描述(通常缩写为 RRF 和 ORF)。
Rich Release Format 具有许多优点,是 Metathesaurus 新用户和大多数数据创建应用程序的首选格式。
2.2. 源词汇
元词库包含来自 100 多个术语、分类和词库的概念、概念名称和其他属性,其中一些有多个版本。元词库中每个源词汇本身都有一个概念,其语义类型为“知识产品”。一个特殊文件(MRSAB.RRF 和 ORF 中的 MRSAB)存储元词库特定版本中存在的每个源词汇的版本。所有其他引用源词汇的元词库文件都使用“根”或无版本缩写,例如 ICD9CM,而不是 ICD9CM2003,从而避免了常规的批量更新以反映新版本。如果您希望在自定义元词库子集文件中使用版本化的词汇源缩写,MetamorphoSys 可提供此选项。
当前 UMLS 发布文档的UMLS 源词汇文档页面上列出了元词库源词汇及其根源和版本源缩写的完整列表。该列表按元词库中使用的词汇源的缩写字母顺序排列。UMLS 源词汇文档页面包含其他信息:元词库中存在的概念名称数量、其具有的层次结构或上下文类型(如果有),以及它是否是元词库中不定期更新的少数源词汇之一。
元词库源词汇包括专为患者记录系统设计的术语;用于统计报告和计费的大型疾病和程序分类;用于记录与精神病学、护理、医疗器械、药物不良反应等相关的数据的更狭义的词汇;来自专家诊断系统的疾病和查找术语;以及一些用于信息检索的词库。英语源词汇的分类列表可用。
2.2.1. 纳入美国标准代码集和术语
元同义词库包括美国在临床和行政健康数据电子交换中强制使用的术语和代码集。
2.2.2. 纳入英语以外的语言
元词库结构可以容纳其源词汇翻译成英语以外的其他语言。元词库的当前版本包含多种不同语言的翻译。元词库包含一些源词汇的多种翻译,例如 NLM 的医学主题词 (MeSH) 和国际初级保健分类;其他一个或多个,并且在许多情况下,只有英文版。如前所述,MetamorphoSys可以轻松创建元词库的子集,以排除与特定应用程序不相关的语言。
2.3 概念、概念名称及其标识符
元词库按概念组织。其主要目的之一是将来自许多不同词汇表的同一概念的不同名称联系起来。除了保留源词汇表中存在的所有标识符外,元词库还为其包含的概念和概念名称分配几种唯一、永久的标识符。元词库概念结构包括概念名称、其标识符以及这些概念名称的主要特征(例如语言、词汇来源、名称类型)。整个概念结构出现在 Rich Release Format(MRCONSO.RRF)的单个文件中。概念结构的缩写版本分为 Original Release Format(MRCON 和 MRSO)中的两个文件。
2.3.1. 概念和概念标识符
概念即含义。含义可以有许多不同的名称。元同义词库构建的一个主要目标是理解每个源词汇表中每个名称的预期含义,并将所有源词汇表中具有相同含义的名称(同义词)联系起来。这不是一门精确的科学。元同义词库的构建基于这样的假设:经过专门训练的学科专家可以高度准确地确定同义词。元同义词库编辑决定在元同义词库概念结构中表示哪种同义词观点。请注意,每个源词汇表的同义词观点也存在于元同义词库中,无论其是否同意元同义词库的观点。
元词库中的每个概念或含义都有一个唯一且永久的概念标识符 (CUI)。CUI 没有内在含义。换句话说,您无法仅通过查看其 CUI 推断出有关概念的任何信息。原则上,概念的标识符永远不会改变,无论元词库或源词汇表中附加到该概念的名称如何随时间发生变化。
当发现两个 CUI 指代同一个概念时(即未发现的同义词出现时),CUI 将从元同义词库中删除。在这种情况下,两个 CUI 中的一个将被保留,元同义词库中的所有相关信息将与其链接,而另一个 CUI 将被淘汰。
已停用的 CUI 永远不会被重复使用。每个版本的 Metathesaurus 都包含详细说明与上一版本相比任何此类更改的文件。一个 Metathesaurus 文件(MRCUI.RRF 和 ORF 中的 MRCUI)跟踪了从 1991 年至今的此类更改,让您可以检查 Metathesaurus 中不再存在的任何 CUI 的命运。
2.3.2. 概念名称和字符串标识符
元词库中每种语言的每个唯一概念名称或字符串都有一个唯一且永久的字符串标识符 (SUI)。字符集、大小写或标点符号的任何变化都是一个单独的字符串,具有单独的 SUI。不同语言(例如英语和西班牙语)中的相同字符串将具有针对每种语言的不同字符串标识符。如果相同字符串(例如 Cold)具有多个含义,则字符串标识符将链接到多个概念标识符 (CUI)。
2.3.3. 原子和原子标识符
构成元词库的基本构建块或“原子”是来自每个源词汇表的概念名称或字符串。每个源词汇表中的字符串每次出现都会分配一个唯一的原子标识符 (AUI)。如果完全相同的字符串在同一词汇表中出现两次,例如,作为同一概念的长名称和短名称,或作为同一词汇表源中两个不同概念的替代名称,则每次出现都会分配一个唯一的 AUI。当同一个字符串出现在多个源词汇表中时,它每次作为每个源中的概念名称出现时都会有 AUI。所有这些 AUI 都将链接到单个字符串标识符 (SUI),因为它们代表同一字符串的出现。与字符串标识符不同,单个 AUI 始终链接到单个概念标识符,因为源中字符串的每次出现只能有一个含义。
AUI 出现在 RRF(.RRF 文件)中,但不出现在 ORF 中。
2.3.4. 术语和词汇标识符
仅对于 Metathesaurus 中的英语条目,每个字符串都通过通用术语标识符 (LUI) 链接到其所有词汇变体或小变体。(因此,在 Metathesaurus 中,英语“术语”是所有彼此词汇变体的字符串的组。)使用词汇变体生成器 (lvg) 程序(UMLS 词汇工具之一)检测英语词汇变体。随着其他语言的类似工具的出现,它们可用于创建其他语言的词汇变体组。(同时,非英语字符串的 LUI 实际上是另一个字符串标识符。)
和字符串标识符一样,英语字符串的 LUI 可能与多个概念相关联。当彼此词汇变体的字符串具有不同含义时,就会发生这种情况。相比之下,每个字符串标识符和每个原子标识符只能链接到一个 LUI。
2.3.5 概念、字符串、原子和术语标识符的使用
在 Metathesaurus 中,每个 CUI(概念)都链接到至少一个 AUI(原子)、SUI(字符串)和 LUI(术语),但也可以链接到其中的多个。每个 AUI(原子)都链接到一个 SUI(字符串)、一个 LUI(术语)和一个 CUI(概念)。每个 SUI(字符串)可以链接到多个 AUI(原子)、一个 LUI(术语)和多个 CUI(概念)——尽管典型情况是一个 CUI。每个 LUI(术语)可以链接到多个 AUI(原子)、多个 SUI(字符串)和多个 CUI(概念)——尽管典型情况是一个 CUI。
在表 1中的缩写示例中,Atrial Fibrillation 作为原子出现在多个源词汇表中,每次出现都有不同的 AUI。由于每个原子都有相同的字符串或概念名称,因此它们链接到单个 SUI。Atrial Fibrillations(Atrial Fibrillation 的复数)具有不同的字符串标识符。由于单数和复数是彼此的词汇变体,因此两者都链接到相同的 LUI。Auricular Fibrillation 及其复数 Auricular Fibrillations 有不同的 LUI 以及不同的 SUI 和 AUI。由于 Atrial Fibrillation 和 Auricular Fibrillation 被判断为具有相同的含义,因此它们链接到相同的 CUI。
所有这些标识符对于构建元词库、允许针对特定目的进行高效和准确的定制以及识别其概念和概念名称覆盖范围随时间的变化都具有重要作用。
例如,CUI 链接了元同义词库中与特定概念相关的所有信息。换句话说,CUI 可用于检索出现在任何元同义词库文件中的特定概念的所有概念名称、关系和属性。CUI 还可用作许多单个源词汇所链接的生物医学概念或含义的永久、公开标识符。强烈建议您将 CUI 纳入本地应用程序 - 以支持数据交换和链接,并协助在将来需要时使用单个源词汇进行迁移。
2.3.6. 元同义词库概念的默认首选名称
为了方便那些构建 Metathesaurus 的人,一个英文术语中的一个字符串被指定并标记为 Metathesaurus 中每个概念的默认首选名称。为了避免在备选术语和字符串中进行费力的选择,任何 Metathesaurus 概念的默认首选名称的选择都基于所有 Metathesaurus 源词汇表中所有类型的英文字符串的优先顺序。不同类型的字符串(例如,每个词汇表中的首选术语、交叉引用和缩写)在此顺序中的位置不同。在建立默认优先顺序时考虑的因素包括主题覆盖范围、更新频率以及源概念名称在常规临床或生物医学论述中的使用程度。默认优先顺序出现在 MRRANK.RRF(ORF 中的 MRRANK)中,以及当前 UMLS 发布文档的源和术语类型:默认优先顺序和可抑制性页面中。
默认优先顺序并不适用于 Metathesaurus 的所有应用。MetamorphoSys可用于更改首选名称的选择,以显示最适合特定用户群体的源词汇表中的术语。例如,在临床应用中,可能首选 SNOMED CT 中的概念名称,而在文献检索系统中,可能首选 MeSH 中的术语。
2.3.7. 具有多重含义的字符串
在某些情况下,同一个名称(有或没有大小写差异)可能适用于不同的概念,通常(但并非总是)出现在不同的 Metathesaurus 源词汇表中。在下面的缩写示例中,字符串“Cold”是某个词汇表中的温度名称。在另一个词汇表中,“Cold”是“普通感冒”的替代名称。在第三个词汇表中,“COLD”是“慢性阻塞性肺病”的首字母缩写词。因此,“Cold”或“COLD”在 Metathesaurus 中作为多个概念的名称出现。
2.3.7.1. 元同义词库中的歧义表示
单独的元词库文件(AMBIGLUI.RRF 和 AMBIGSUI.RRF(ORF 中的 AMBIG.LUI 和 AMBIG.SUI))包含元词库已知的所有歧义术语和字符串的 LUI 和 SUI。见表2。
2.3.8. 元同义词库构建过程中添加的概念名称
尽管元词库中的大部分概念名称都来自其一个或多个源词汇表,但有些概念名称是在元词库构建过程中创建的。这种情况发生在以下情况下:
1.为具有多重含义的字符串创建一个唯一的名称(第 2.3.7 节中解释的情况)
2.当某个概念的源词汇名称都无法充分表达其含义时,就会创建一个更明确的名称
3.根据英式拼写生成美式英语变体
4.为扩展字符集(如 Unicode)中的字符串生成等效的基本拉丁 ASCII 字符集字符串
与元词库中的所有其他概念名称一样,在元词库构建过程中创建的名称都带有标签以表明其来源。
2.4. 关系和关系标识符
元词库包含不同概念之间的许多关系(除了第 2.3 节中描述的元词库概念结构中的同义词关系)。这些关系大部分来自各个源词汇表。有些是在元词库构建过程中由 NLM 添加的。有些是由元词库用户贡献的,用于支持某些类型的应用程序。
关系以 CUI(在 RRF 和 ORF 中)和 AUI(仅在 RRF 中)的形式表示。元同义词库关系文件不包含概念名称。
一般而言,元词库会标明每个关系的作者,即源词汇表之一、元词库本身或其他供应商。元词库开发初期添加的一些关系(占当前总数的不到 6%,且数量正在下降)归因于元词库,但实际上来自特定的源词汇表。
2.4.1. 非同义关系的基本类别
元同义词库包含同一源词汇表中的概念之间的非同义关系(源词汇表内关系),以及不同词汇表中的概念之间的非同义关系(源词汇表间关系)。元同义词库并不包含其所包含的概念之间所有可能的非同义关系。它包含其源词汇表中存在的所有关系,以及一些旨在连接相关概念的附加关系。一般而言,源词汇表所断言的关系将密切相关的概念连接起来,例如具有某些共同属性或在定义上相关的概念。例如,一类药物的成员(例如青霉素)将与该类别的名称(例如抗生素)相关联;细菌感染将与导致细菌感染的细菌相关联。
2.4.1.1. 源内关系
大多数源内关系由各个源词汇表断言或暗示。此类关系出现在源词汇表的显式或隐式层次结构或上下文、交叉引用结构、应用限定词的规则或同一概念的不同类型名称之间的连接(例如缩写和完整形式)中。主要的元词库关系文件,即 ORF 中的 MRREL.RRF 和 MRREL 包含“距离 -1”层次关系,即直接父级和直接子级关系,以及其他类型的源内关系。
上下文或层次关系的子集也分布在特殊的上下文文件(MRCXT.RRF 和 ORF 中的 MRCXT)中,以方便构建用户显示。完整层次结构的“可计算”表示仅在 MRHIER.RRF 中提供。例如,即使有数千个兄弟关系,MRHIER.RRF 也会表示所有兄弟关系。UMLS源词汇表文档页面指示哪些源词汇表具有层次结构上下文,其中哪些允许概念出现在多个层次结构中,以及兄弟关系是否在 MRHIER.RRF 中表示。
如果 ORF 用户不想要这些选定的、预先计算的上下文,他们可以省略 MRCXT。
2.4.1.2. 源间关系
元词库中的主要源间关系是元词库概念结构中表示的同义词关系。元词库还包括来自不同源词汇的非同义词概念之间的一些关系。其中一些源间关系是在元词库构建过程中生成的,以将特定的“孤立”概念(祖先很少或没有祖先,或在其自己的源词汇表中有子代)与另一个源词汇表中更丰富的上下文信息联系起来。有些是由元词库用户提供的,他们发现“类似”或“相似”关系是对元词库相对严格的同义词观点的有益补充。在这两种情况下,这些关系都分布在 MRREL.RRF 和 MRREL 中的 ORF 中。
许多非同义概念之间的源间关系是通过在两个不同的源词汇表之间创建映射而产生的。这些映射可能由单个源词汇表制作者、有特定映射需求的第三方、或由 NLM 创建或在 NLM 监督下专门用于在元词库中分发。预计 NLM 监督的映射数量将会增加。RRF 中有用于映射的特定元词库文件(MRMAP.RRF 和 MRSMAP.RRF)。映射的子集出现在 ORF 中的 MRATX 中。涉及 SNOMED CT 的映射仅出现在 RRF 中。
2.4.2. 关系标签
元词库中的所有关系(基本概念结构之外)都带有通用标签 (REL),描述其基本性质,例如更广泛、更狭窄、子级、限定词等,并由其来源标识。大多数这些关系要么直接在源词汇表中断言,要么由源词汇表的结构暗示。通用关系标签的完整列表出现在 MRDOC.RRF 和当前 UMLS 发布文档的数据元素中使用的缩写页面上。
元词库中约四分之一的关系还带有从源词汇表获得的附加标签 (RELA),该标签更准确地解释了关系的性质,例如 is_a、branch_of、component_of。Digital Anatomist 词汇表和 RxNorm 是包含此类关系标签的源词汇表的示例。附加关系标签的完整列表出现在 MRDOC.RRF 中以及当前 UMLS 发布文档的“数据元素中使用的缩写”页面上。
2.4.3. 关系标识符
元同义词库中存在的每种关系都有一个唯一的关系标识符 (RUI)。这些标识符的主要目的是便于检测元同义词库不同版本中关系的变化。关系标识符的出现或消失表明元同义词库中存在的关系发生了变化。
一些源词汇表有自己的关系标识符。如果存在,这些标识符也会出现在元同义词库中。
2.4.4. 关系组
关系组是源断言或隐含的关系关联,可用于在存在多个关系时增加含义或清晰度。合在一起,每个分组可能表达比未分组时更丰富的含义。关系组可以在 MRREL.RRF 中通过具有相同 AUI2 和相同关系组 (RG) 数值的行来识别。关系组的数值根据与相同 AUI2 相关联的关系组的数量而增加。空值表示不存在关系分组。如果认为关系已过时,则关系可能是可抑制的,这由 SUPPRESS 字段中的 O 值表示。
CUI1 | AUI1 | STYPE1 | REL | CUI2 | AUI2 | STYPE2 | RELA | RUI | SRUI | SAB | SL | RG | DIR | SUPPRESS |CVF
C0024109|A3154872|SCUI|RO|C0264408| A2957612 |SCUI|has_finding_site|R14028961|994883025|SNOMEDCT_US|SNOMEDCT_US|0|Y|O||
C0231335|A2926532|SCUI|RO|C0264408| A2957612 |SCUI|occurs_in|R123147138|1795540028|SNOMEDCT_US|SNOMEDCT_US|0|Y|N||
C0006255|A3104303|SCUI|RO|C0264408| A2957612 |SCUI|has_finding_site|R98157815|3465258024|SNOMEDCT_US|SNOMEDCT_US|1|Y|O||
C0028778|A2873893|SCUI|RO|C0264408| A2957612 |SCUI|具有关联形态|R98053314|3419439024|SNOMEDCT_US|SNOMEDCT_US|1|Y|O||
在此示例中,关系组 0 将关系从 A2957612“儿童哮喘”分组到 A2926532“儿童”和 A3154872“肺结构”,以明确“儿童哮喘”存在于儿童肺部。
关系组 1 将 A2957612“儿童哮喘”与 A3104303“支气管结构”和 A2873893 的关系分组在一起,以表明“儿童哮喘”的特征是支气管阻塞。
在 SNOMEDCT_US 中,关系组是源断言的。MRREL.RRF 的 SRUI 字段包含分配给关系的 SNOMEDCT 断言的唯一标识符。有关 SNOMED CT 中关系组的详细描述,请参阅SNOMED CT 文档库。
在 MeSH 和 MedlinePlus 中,关系组由出现在相同 MeSH 映射到标题下的描述符 (SDUI) 和限定符暗示来源。MeSH 示例:
<HeadingMappedToList>
<HeadingMappedTo>
<DescriptorReferredTo>
<DescriptorUI>D012694</DescriptorUI>
<DescriptorName>
<String>丝氨酸</String>
</DescriptorName>
</DescriptorReferredTo> <QualifierReferredTo>
<QualifierUI>
*Q000031</QualifierUI>
<QualifierName>
<String>类似物和衍生物</String>
</QualifierName>
</QualifierReferredTo>
</HeadingMappedTo>
</HeadingMappedToList>
这种关联在 UMLS 中表示为 tagged_to 和 has_mapping_qualifier 关系的分组,将与 DescriptorName 和 QualifierName 字符串相对应的 AUI 连接到 MeSH Mapped To Heading 的 AUI。
CUI1 | AUI1 | STYPE1 | REL | CUI2 | AUI2 | STYPE2 | RELA | RUI | SRUI | SAB | SL | RG | DIR | SUPPRESS |CVF
C0002776|A3879704|SDUI|RO|C0067636| A0207764 |SDUI| has_mapping_qualifier |R148279824||MSH|MSH|1||N||
C0036720|A0115503|SDUI|RN|C0067636| A0207764 |SDUI|映射到|R148155946||MSH|MSH|1||N||
关系组链接了这些关系,以澄清 A0207764“N-乙酰-4-硝基苯基丝氨醇”映射到 A0115503“丝氨酸”并具有映射限定符 A3879704“类似物和衍生物”。
2.5. 属性和属性标识符
在元同义词库中,属性包括关于概念、原子或关系的每个离散信息,这些信息不是 (1) 基本元同义词库概念结构的一部分,也不是 (2) 分布在关系文件之一中。
2.5.1. 属性种类
元词库包括概念属性、原子属性和关系属性。
概念属性是在元词库构建过程中添加的,适用于概念的所有名称。例如,语义类型“病理功能”和“发现”是首选名称为“心房颤动”的概念的属性,适用于与该概念相关的任何原子。
原子属性来自特定的源词汇表。其中一些具有普遍意义;其他仅与特定的源词汇表相关。例如,定义“心律失常,特征是快速、不规则的心房冲动和无效的心房收缩”是原子心房颤动的属性,来自医学主题词 (MeSH)。它可能是与此概念的名称相关的几个定义之一,因为 Metathesaurus 包括其任何源词汇表提供的所有定义。虽然这个特定的定义来自 MeSH,但它可能在不使用 MeSH 的 Metathesaurus 应用程序中很有用。相比之下,将字符串(原子)添加到源词汇表的日期仅适用于该特定原子。特定原子属性的效用对于 Metathesaurus 的不同应用程序会有很大差异。
关系属性来自特定的源词汇表,并描述该源中特定关系的特殊特性,例如可细化性。
大多数属性分布在 ORF 中的 MRSAT.RRF 和 MRSAT 中。在这些文件中,每行都包含属性的名称、属性的来源和属性的值,以及所有适当的标识符。选定的属性有单独的文件,例如语义类型(ORF 中的 MRSTY.RRF 和 MRSTY)和定义(ORF 中的 MRDEF.RRF 和 MRDEF)。
2.5.2. 属性标识符
元词库中每个属性的每次出现都会被分配一个唯一的属性标识符 (ATUI)。ATUI 的出现或消失表示元词库内容发生了变化,因此 ATUI 有助于高效地为每个新版本的元词库生成完整的变更集。ATUI 仅出现在 RRF 中,而不出现在 ORF 中。
2.6. 有关元同义词库的数据
元词库包含许多文件,可提供有用的元数据,即有关元词库本身的数据。元数据文件描述了 (1) 元词库当前版本的特点;(2) 当前版本与前一版本之间的变化;以及 (3) 从 1991 年至今概念标识符 (CUI) 的历史记录。
2.6.1. 当前元同义词库的特点
有以下离散元同义词库文件:
-
每个元词库文件(MRFILES.RRF 和 ORF 中的 MRFILES)的名称和大小
-
每个元词库数据元素(MRCOLS.RRF 和 ORF 中的 MRCOLS)的名称和大小范围
-
包含一组有限缩写值的选定数据元素的可能值(仅限 MRDOC.RRF)。注意:最终此文件将包含包含一组有限缩写值的每个数据元素的值。
-
元词库中的源词汇(MRSAB.RRF 和 ORF 中的 MRSAB)
-
元同义词库中已知具有歧义(即具有多重含义,可链接到多个概念标识符)的术语和字符串的 LUI 和 SUI(RRF 中的 AMBIGLUI.RRF 和 AMBIGSUI.RRF 以及 ORF 中的 AMBIGLUI 和 AMBIGSUI)
-
用于计算元词库中每个概念的默认首选概念名称(MRRANK.RRF 和 ORF 中的 MRRANK)的词汇源和术语类型的优先顺序。注意:可以使用 MetamorphoSys 更改此顺序。
MRCOLS、MRDOC、MRSAB 和 MRRANK 包含实际 Metathesaurus 内容文件中未出现的数据。其他数据可从 Metathesaurus 内容文件中计算得出。它们已预先计算,并以单独的文件形式提供,以方便用户使用。
2.6.2. 当前元同义词库与先前版本之间的差异
每个版本的元同义词库都包含一组文件,总结了与上一版本相比的变化。
RRF 中的 CHANGE/MERGEDCUI.RRF(ORF 中的 CHANGE/MERGED.CUI)记录了先前版本的 Metathesaurus 中两个离散概念现在被视为同义词的情况。
RRF 中的 CHANGE/MERGEDLUI.RRF(ORF 中的 CHANGE/MERGED.LUI)记录了基于当前版本的 luinorm(用于计算它们的程序)将 Metathesaurus 先前版本中的两个离散术语识别为彼此的词汇变体的情况。
三个文件包含先前版本中出现但当前版本中没有的 Metathesaurus 概念、术语和字符串的 CUI、LUI 和 SUI(RRF 中的 CHANGE/DELETEDCUI.RRF、CHANGE/DELETEDLUI.RRF、CHANGE/DELETEDSUI.RRF 以及 ORF 中的 CHANGE/DELETED.CUI、CHANGE/DELETED.LUI、CHANGE/DELETED.SUI)。
注意:未来版本的 Metathesaurus 变更文件将仅提供 RRF 中的关系和属性。这些文件的生成取决于 Metathesaurus 2004AA 版本中引入的关系和属性标识符(RUI 和 ATUI)。
2.6.3. 历史 CUI
已停用的 CUI 文件(RRF 中的 MRCUI.RRF 和 ORF 中的 MRCUI)包括 Metathesaurus 任何先前版本中存在的所有 CUI,但不包括当前版本。通常,该文件将已停用的 CUI 映射到一个或多个当前 CUI。
2.7. 概念名称索引
为了帮助系统开发人员构建应用程序来检索包含特定单词或单词组的所有字符串或概念名称,提供了三个概念名称索引:单词索引、规范化单词索引(仅适用于英文单词)和规范化字符串索引(仅适用于英文字符串)。这些索引分别在第 2.7.1、2.7.2 和 2.7.3 节中描述。为了使它们之间的区别更清晰,示例包括以下元词库概念名称集的每个索引中出现的单词或字符串:
阻塞性肺疾病 | (C0600260、L0024117、S0058463) |
阻塞性肺病 | (C0600260、L0024117、S0068169) |
阻塞性肺病 | (C0600260、L0024117、S0058458) |
阻塞性肺病 | (C0600260、L0024117、S0068168) |
Lung Diseases, Obstructive(C0600260, L0024117, S0058463)
Obstructive Lung Diseases(C0600260, L0024117, S0068169)
Lung Disease, Obstructive(C0600260, L0024117, S0058458)
Obstructive Lung Disease(C0600260, L0024117, S0068168)
2.7.1. 词索引
2.7.1.1. 描述
单词索引将任何 Metathesaurus 字符串中的每个单词与其所有相关的字符串、术语和概念标识符联系起来。Metathesaurus 中每种语言都有单独的单词索引文件。
每种语言中每个唯一字符串中的每个单词都有一个条目。每个条目有五个子元素。
1.LAT - 语言的 3 个字母缩写
2.WD-Word
3.CUI-- 概念唯一标识符
4.LUI-- 术语唯一标识符
5.SUI-- 字符串唯一标识符
2.7.1.2. 单词的定义
在这个索引中,单词被定义为仅包含长度为 1 或更大的字母数字字符的标记;有关更多信息,请参阅SPECIALIST 词典和词汇工具。
2.7.1.3. 词索引示例
对于上面列出的四个示例概念名称,单词索引将包含以下每个单词的多个条目:disease、diseases、lung、obstructive。下面显示了针对名称 Lung Disease、Obstructive 和 Obstructive Lung Disease 生成的两个条目:
ENG|disease|C0600260|L0024117|S0058458|
ENG|disease|C0600260|L0024117|S0068168|
2.7.2. 规范化词索引
2.7.2.1. 描述
规范化单词索引将每个单独的规范化英文单词与其所有相关的字符串、术语和概念标识符连接起来。
每个唯一英语字符串中找到的每个规范化单词都有一个条目。此索引中没有其他语言的条目。每个条目有五个子元素。
1.LAT-(在此版本的 Metathesaurus 中始终为 ENG)
2.NWD-- 规范化词
3.CUI-- 概念唯一标识符
4.LUI-- 术语唯一标识符
5.SUI-- 字符串唯一标识符
2.7.2.2. 规范化词的定义
规范化过程包括将字符串拆分成组成单词、将每个单词小写并将其转换为非变格形式。规范化单词是通过对每个单词进行非变格处理并删除少量停用词来生成的。如果单词出现在词典中,则使用 SPECIALIST 词典生成非变格形式;否则,则通过算法生成。
2.7.2.3. 规范化单词示例
对于上面列出的四个示例概念名称,规范化单词索引将包含以下每个单词的多个条目:disease、lung、obstructive。由于规范化单词索引仅包含基本形式,因此不包含复数“diseases”的条目。因此,在此索引中,所有四个概念名称都链接到规范化单词“disease”,如下所示:
ENG|disease|C0600260|L0024117|S0058458|
ENG|disease|C0600260|L0024117|S0058463|
ENG|disease|C0600260|L0024117|S0068168|
ENG|disease|C0600260|L0024117|S0068169|
2.7.3. 规范化字符串索引
2.7.3.1. 描述
规范化字符串索引将元同义词库字符串的规范化形式与其所有相关字符串、术语和概念标识符联系起来。每个唯一的(非规范化的)英语字符串都有一个条目。此索引中没有其他语言的条目。每个条目有五个子元素。
1.LAT-(在此版本的 Metathesaurus 中始终为 ENG)
2.NSTR-- 规范化字符串
3.CUI-- 概念唯一标识符
4.LUI-- 术语唯一标识符
5.SUI-- 字符串唯一标识符
2.7.3.2. 规范化字符串的定义
规范化过程包括将字符串拆分成组成单词、将每个单词小写、将每个单词转换为非变格形式,并按字母顺序对单词进行排序。规范化字符串是通过对每个单词进行非变格处理并省略少量停用词来生成的。如果单词出现在词典中,则使用 SPECIALIST 词典生成非变格形式;否则,则通过算法生成。
2.7.3.3. 规范化字符串示例
由于上面列出的四个示例概念名称由同一组规范化单词组成,因此规范化字符串索引将包含单个字符串的四个条目:disease lung obstructive,其中组件规范化单词按字母顺序出现。由这四个概念名称生成的完整规范化字符串索引条目集如下:
ENG|disease lung obstructive|C0600260|L0024117|S0058458|
ENG|disease lung obstructive|C0600260|L0024117|S0058463|
ENG|disease lung obstructive|C0600260|L0024117|S0068168|
ENG|disease lung obstructive|C0600260|L0024117|S0068169|
2.7.4. 单词索引程序
生成这些索引的程序是用 Java 编写的。它们可能对正在开发自己的 UMLS 数据接口或用于其他目的的系统开发人员有用。第 6 章包含有关这些以及 UMLS 知识源提供的其他词汇程序的信息。
2.8. 字符集
UMLS 知识源以 Unicode 形式分布(具体来说,以 Unicode 4.0 标准 [1] 的 UTF-8 编码形式),以避免复杂性和信息丢失。
Unicode 是一个统一且可互操作的全球标准,其中包括用任何语言书写所需的字符(请参阅www.unicode.org)。Unicode 还包括变音符号、表意文字、科学符号和其他符号。大多数现代系统已使用 Unicode;我们强烈建议您升级到兼容 Unicode 的系统和软件。
7 位基本 ASCII 字符集是来自最古老的 ASCII 标准的 96 个字符和符号的“最小公分母”字符集。UTF-8 与 7 位 ASCII 范围内字符的 ASCII 编码相同,因此 7 位 ASCII 文件自动成为 UTF-8 的正确子集。这意味着最初以 7 位 ASCII 编码的源保持不变。在 UMLS 中,术语“扩展字符”是指此 7 位 ASCII 子集之外的所有 Unicode 字符。所有其他字符集都转换为 UTF-8 并以 UTF-8 分发。
请注意,UMLS LAT(术语语言)是源声明的语言。由于世界上没有使用 7 位 ASCII 的语言,因此源通常包含符号或其他语言的扩展字符,例如在人名中。
MetamorphoSys 默认以标准 UTF-8 输出所有记录和数据。选中“删除包含扩展 UTF-8 字符的记录”选项将从子集中排除所有包含扩展字符的术语和其他数据。这将在层次结构中造成空白,并可能导致对您的应用程序至关重要的词汇丢失。
对于大多数英语或西班牙语源,即 LAT = ENG 或 SPA,会为 UMLS 创建等效的 7 位 ASCII 字符串,以帮助旧系统的用户。如果您希望使用它们,则这些形式不能排除在您的子集之外。这些形式由 lvg 程序创建(请参阅第6.8 节中的词汇变体生成部分)。该程序可能会引起那些希望进行进一步转换的人的兴趣;它将扩展字符转换为官方 Unicode 字符名称的转义形式,以确保不会丢失任何信息。这些名称可能不是“读者友好的”,但对于某些目的(例如索引)很有用。
除非在 MetamorphoSys 中的“输出选项”选项卡上选择了“将 UTF-8 BOM 字符添加到输出文件”选项,否则 UTF-8 编码的 Metathesaurus 文件中不会出现初始字节顺序标记 (BOM) 字符。
文件将按字节排序(例如,对于 UTF-8 格式的数据,标准 UNIX 排序按预期工作)。请注意,UMLS 数据旨在通过数据库系统等软件工具进行操作,因此文件的排序顺序无关紧要。
2.9. 内容视图
内容视图 (CV) 是元词库中任何可定义的子集,可用于某些特定目的。内容视图由 NLM 创建,或由外部机构提交给元词库。成员资格可以通过多种方式定义,包括:
-
随着时间的推移而维护的 Metathesaurus UI(CUI、SUI、AUI 等)列表。
-
参与视图的源列表。
-
一种复杂的查询或算法,它根据明确定义的标准计算原子集、源概念或关系,并且还可以配置为包含其他相关信息,例如属性或关系。
请参阅内容视图页面以获取当前版本中的内容视图列表。
2.9.1. RRF中内容视图元数据的表示
关于每个内容视图的更高级别的信息作为概念直接包含在 Rich Release Format (RRF) 文件中,如下所述。
2.9.1.1. MRCONSO.RRF
每个内容视图由 MRCONSO 中的一个概念表示,该概念具有 SAB=MTH 和 TTY=CV 的原子:
STR = <内容视图名称>,例如“MetaMap NLP 视图”
CODE = NOCODE
TTY = CV
SAB = MTH
SAUI、SCUI、SDUI = null
2.9.1.2. MRSTY.RRF
每个内容视图概念都被分配“知识产品”作为语义类型(STY)。
2.9.1.3. MRSAT.RRF
每个内容视图都具有必需的元数据属性,这些属性出现在 MRSAT 中:
ATN | ATV |
---|---|
CV_ALGORITHM | Content View algorithm |
CV_CATEGORY | Content View category |
CV_CLASS | Content View class |
CV_CODE | Content View code |
CV_CONTRIBUTOR_DATE | Date corresponding to the contributor version of this Content View |
CV_CONTRIBUTOR_URL | URL corresponding to the contributor version of this Content View |
CV_CONTRIBUTOR_VERSION | Version of this Content View submitted by the contributor |
CV_CONTRIBUTOR | Content View contributor |
CV_DESCRIPTION | Content View description |
CV_IS_GENERATED | Content View generated: Y/N |
CV_MAINTAINER_DATE | Date corresponding to the maintainer version of this Content View |
CV_MAINTAINER_URL | URL corresponding to the maintainer version of this Content View |
CV_MAINTAINER_VERSION | Version of this Content View submitted by the maintainer |
CV_MAINTAINER | Content View maintainer |
CV_PREVIOUS_META | Previous UMLS Metathesaurus version used to generate Content View. A null value means the Content View is generated based on current UMLS Metathesaurus version. |
CV_SUBCATEGORY | Content View subcategory |
2.9.2. 提取内容视图
2.9.2.1. 使用 MetamorphoSys
内容视图旨在使用 MetamorphoSys 进行提取。
要提取内容视图:
1.打开 UMLS MetamorphoSys 配置屏幕上的文件菜单。
2.选择“启用/禁用过滤器”-->“内容视图过滤器”。
3.单击“确定”。
4.在出现的配置面板中选择所需的内容视图。
生成的 RRF 子集中的内容视图标志 (CVF) 设置为一个整数,表示适用于每个数据元素的所选视图的 CV_CODE 值的总和。请参阅内容视图页面以了解 CV_CODE 值。注意:CVF 不以原始发布格式 (ORF) 表示。
例如,如果为“MetaMap NLP 视图”创建了一个子集,则 CVF 设置为 256(与“MetaMap NLP 视图”元数据概念中的 CV_CODE 属性匹配)。如果创建的子集包含两个内容视图,则参与两个内容视图的原子的 CVF 是每种情况下适用的 CV_CODE 值的总和。例如,包含参与“MetaMap NLP 视图”和“SNOMED CT 的核心问题列表子集”的原子的子集的 CVF 将为 2304(256 + 2048),即这两个内容视图的各自 CV_CODE 值的总和。注意:该子集中的某些原子仅属于“MetaMap NLP 视图”,因此仍具有 CVF 值 256,而其他原子仅属于“SNOMED CT 的核心问题列表子集”,CVF 值为 2048。
2.9.2.2. 直接从 RRF 文件
MetamorphoSys 之外的内容视图处理需要位域编程。如果您已经创建了 UMLS 子集,大多数 RRF 文件都包含一个内容视图标志字段来表示内容视图成员身份。CVF 由一个表示位掩码的整数组成。当解释为二进制数时,整数的每一位代表一个特定的内容视图 - 最多 64 个视图。这些位按从最低有效位到最高有效位的顺序分配。特定内容视图中的成员身份由相应位中的“1”表示。“0”表示它不是成员。位串被转换成十进制数以供显示。因此,如果第 9 位(256)和第 12 位(2048)分别设置为 1,则结果值将为 2304(或二进制中的 100100000000)。相应内容视图使用的位由该视图元数据中的 CV_CODE 属性定义。
考虑尝试查找从属于“MetaMap NLP 视图”的 MRCONSO.RRF 文件加载的 MRCONSO 表中所有行的情况。首先识别当前子集中的所有内容视图:
从 MRCONSO 中选择 *,其中 TTY='CV';
除其他结果外,此查询将产生所需内容视图的 CUI:C1700357。接下来,查询 MRSAT 以显示内容视图元数据,包括 CV_CODE 值:
从 MRSAT 中选择 ATN、ATV,其中 CUI='C1700357';
知道 CV_CODE (256) 后,最后一步是识别参与此内容视图的 MRCONSO 中的条目:
从 MRCONSO 中选择 *,其中 BITAND(CVF,256) <> 0;
此内容视图的 CV_CODE 为 256。当使用 CV_CODE (256) 将 BITAND 操作应用于 CVF 时,参与该内容视图的 MRCONSO 中的任何条目都将产生非零值。所有未参与内容视图的条目都将为此操作产生零值。
2.10. 映射
元词库中的源间映射提供了从一个术语(源术语)中的实体到另一个术语(目标术语)中的实体的链接。实体可以是术语、代码、概念、描述符或表达式。映射可用于多种目的,包括:
-
将数据重新用于其他目的(例如,将使用 SNOMED CT 编码的临床信息转换为 ICD-9-CM 以用于报销目的)
-
在迁移到较新的术语要求时保留数据的价值(例如从 ICD-9-CM 更新到 ICD-10-CM)
鉴于地图应用的多样性,在针对特定用例进行评估时,了解地图的目的、方法、权威性和验证非常重要。
源间映射数据以 MRMAP.RRF 和 MRSMAP.RRF 表示,辅助数据以 MRCONSO.RRF、MRSTY.RRF 和 MRSAT.RRF 表示。映射数据也可以以 MRREL.RRF 中的关系形式冗余表示。
2.10.1. 元同义词库中的映射表示
源间映射数据使用以下规范表示(可能存在例外,例如最近未更新的地图集):
2.10.1.1. MRCONSO.RRF
对于 MRMAP.RRF 中表示的每个地图集,MRCONSO.RRF 中都有一个“跨映射集”概念。请注意,当地图集从一个版本更新到下一个版本时,CUI 会发生变化。
字段值分配如下:
-
SAB:断言映射信息的源。例如,LCH_NW 提供了一个映射:LCH_NW_2013 到 MSH2015_2014_09_08 映射
这些映射集原子的 SAB 是“LCH_NW”。
-
TTY:所有映射集原子的 XM
-
STR: 原子名称创建为“<VSAB>到<VSAB>映射<可选附加信息>”例如:
-
SNOMEDCT_2011_07_31 至 ICD9CM_2011 映射
-
-
CODE:如果源中提供了地图集的适当标识符,则将使用该标识符作为 CODE。SAUI、SCUI 和 SDUI 也可以填充。如果没有可用的源声明标识符,则在 Metathesaurus 生成期间将生成以“MTHU”开头的 CODE。
例子:
C3826804|ENG|P|L11643734|PF|S14441772|Y|A23864609|LCH_NW|XM|MTHU000001|LCH_NW_2013 至 MSH2015_2014_09_08|0|N|256||
2.10.1.2. MRSTY.RRF
所有地图集概念都被分配了一个“知识产品”的 STY。
例子:
C3826807|T170|A2.4|智能产品|AT201718383|256||
2.10.1.3. MRSAT.RRF
每个地图集概念在 MRSAT.RRF 中都具有许多属性,可提供更多详细信息。可以在 MRSAT.RRF 中找到以下属性。这些属性使用 STYPE=CODE 附加。
Required Attributes:
ATN | ATV | Valid Values |
---|---|---|
FROMRSAB | Root source abbreviation for the "from" identifiers of a map set | range=MRSAB.RSAB |
FROMVSAB | Versioned source abbreviation for the "from" identifiers of a map set | range=MRSAB.VSAB |
MAPSETRSAB | Root source abbreviation for a map set - in general, the same as the value for FROMRSAB | range=MRSAB.RSAB |
MAPSETVERSION | Version of the map set | N/A |
MAPSETVSAB | Versioned source abbreviation for the provider of a map set | range=MRSAB.VSAB |
TORSAB | Root source abbreviation for the "to" identifiers of a map set | range=MRSAB.RSAB |
TOVSAB | Versioned source abbreviation for the "to" identifiers of a map set | range=MRSAB.VSAB |
必需属性:
航空运输网络 | 全地形车 | 有效值 |
---|---|---|
弗罗姆 | 地图集“来自”标识符的根源缩写 | 范围=MRSAB.RSAB |
弗罗姆 | 地图集“来自”标识符的版本化源缩写 | 范围=MRSAB.VSAB |
地图集 | 地图集的根源缩写 - 通常与 FROMRSAB 的值相同 | 范围=MRSAB.RSAB |
地图集版本 | 地图集版本 | 不适用 |
地图集VSAB | 地图集提供者的版本源缩写 | 范围=MRSAB.VSAB |
托尔萨布 | 地图集“to”标识符的根源缩写 | 范围=MRSAB.RSAB |
托夫萨布 | 地图集“to”标识符的版本化源缩写 | 范围=MRSAB.VSAB |
Optional Attributes: In general, these attributes are extracted directly from source-provided data and may have a diverse range of values and formats.
ATN | ATV |
---|---|
MAPSETGRAMMAR | Grammar used by expressions in FROMEXPR or TOEXPR fields |
MAPSETNAME | Official name of a map set |
MAPSETREALMID | Identifier of a "realm" to which a source is mapped, within which this cross mapping table is applicable. Used in cases where Realm specific business rules or guidelines alter the acceptable mappings. Realm is the same as used in SNOMED CT subsets. It includes a four character ISO6523 identifier followed by an optional series of concatenated subdivision codes defined by the registered organization. |
MAPSETRULETYPE | Indicates the types of rules used in a map set and cross map targets to which a source is mapped. |
MAPSETSCHEMEID | Standard identifier for the scheme to which a map set belongs. This may be an International Coding Scheme Identifier (ISO7826) or an Object Identifier (OID) used as specified by HL7. |
MAPSETSCHEMENAME | Full name of the target scheme in a map set. |
MAPSETSCHEMEVERSION | Version number of the target scheme (as published by the issuing organization) in a map set. |
MAPSETSEPARATORCODE | XML entity code (for example, "|" to represent the vertical-bar character) for the character used as a separator between the individual codes in the target codes field in a map set. |
MAPSETSID | Source asserted identifier for a map set. If present, matches the CODE in MRCONSO.RRF. |
MAPSETTYPE | Indicates the nature of a map set. Its value is map set specific. It can be used to indicate the inclusion of one to one, one to many, or rule based. |
MAPSETXRTARGETID | Map set target identifier used for XR mappings. Only used for map sets that explicitly map source codes to “nothing.” |
SOS | Scope statement |
TARGETSCHEMEID | Identifier for the target scheme in the map set. This may be an International Coding Scheme Identifier (ISO7826) or an Object Identifier (OID) used as specified by HL7. |
可选属性:一般来说,这些属性直接从源提供的数据中提取,可能具有多种值和格式。
航空运输网络 | 全地形车 |
---|---|
地图集语法 | FROMEXPR 或 TOEXPR 字段中的表达式使用的语法 |
地图集名称 | 地图集的正式名称 |
地图集范围 | 源映射到的“域”的标识符,此交叉映射表适用于该域。用于域特定业务规则或指南改变可接受映射的情况。域与 SNOMED CT 子集中使用的域相同。它包括一个四字符 ISO6523 标识符,后跟注册组织定义的一系列可选的连接细分代码。 |
地图规则类型 | 指示映射集和源映射到的跨映射目标中使用的规则类型。 |
地图集方案ID | 地图集所属方案的标准标识符。这可能是国际编码方案标识符 (ISO7826) 或 HL7 指定使用的对象标识符 (OID)。 |
地图集方案名称 | 地图集中目标方案的全名。 |
地图集方案版本 | 地图集中目标方案(由发布组织发布)的版本号。 |
地图集分隔符代码 | XML 实体代码(例如,“|”表示竖线字符),用于在地图集中的目标代码字段中用作各个代码之间的分隔符的字符。 |
地图集标识符 | 地图集的源声明标识符。如果存在,则与 MRCONSO.RRF 中的 CODE 匹配。 |
地图集类型 | 表示映射集的性质。其值特定于映射集。它可用于表示包含一对一、一对多或基于规则。 |
地图设置目标ID | 用于 XR 映射的映射集目标标识符。仅用于明确将源代码映射到“无”的映射集。 |
紧急求救 | 范围说明 |
目标方案ID | 映射集中目标方案的标识符。这可能是国际编码方案标识符 (ISO7826) 或 HL7 指定使用的对象标识符 (OID)。 |
Optional MTH Attributes: ATNs for attributes created during Metathesaurus source processing begin with “MTH_”.
ATN | ATV | Valid Values |
---|---|---|
MTH_MAPFROMCOMPLEXITY | Two-part value indicating the complexity of "from" expressions used in a map set. Valid values can be combined in a comma-separated list | Part 1: SINGLE, LIST, or BOOLEAN_EXPRESSION Part 2: AUI, CODE, CUI, LUI, SAUI, SCUI, SDUI, SUI, or STR |
MTH_MAPFROMEXHAUSTIVE | Indicates whether or not the "from" source of a map set is completely mapped | Y/N |
MTH_MAPSETCOMPLEXITY | Indicates the overall complexity of a map set. To compute this field: 1. Compute FROMEXPR cardinality (left hand side) based on whether >1 FROMEXPR exists for same TOEXPR OR MTH_MAPTOCOMPLEXITY indicates MULTIPLE. 2. Compute TOEXPR cardinality (right hand side) based on whether >1 TOEXPR exists for same FROMEXPR OR MTH_MAPFROMCOMPLEXITY indicates MULTIPLE. 3. RULE_BASED if >1 non-null distinct MAPSUBSETID | N_TO_N, N_TO_ONE, ONE_TO_N, ONE_TO_ONE, or RULE_BASED |
MTH_MAPTOCOMPLEXITY | Two-part value indicating the complexity of "to" expressions used in a map set. Valid values can be combined in a comma-separated list | Part 1: SINGLE, LIST, or BOOLEAN_EXPRESSION Part 2: AUI, CODE, CUI, LUI, SAUI, SCUI, SDUI, SUI, or STR |
MTH_MAPTOEXHAUSTIVE | Indicates whether or not the "to" source is completely mapped | Y/N |
MTH_UMLSMAPSETSEPARATOR | The character used in the UMLS Metathesaurus as a separator between the individual codes in the target codes field of the cross map targets to which a source is mapped. | AND |
可选的 MTH 属性:在 Metathesaurus 源处理期间创建的属性的 ATN 以“MTH_”开头。
航空运输网络 | 全地形车 | 有效值 |
---|---|---|
MTH_MAPFROMCOMPLEXITY | 两部分值,表示映射集中使用的“from”表达式的复杂性。有效值可以组合在逗号分隔的列表中 | 第 1 部分: SINGLE、LIST 或 BOOLEAN_EXPRESSION 第 2 部分: AUI、CODE、CUI、LUI、SAUI、SCUI、SDUI、SUI 或 STR |
MTH_MAPFROMEXHAUSTIVE | 指示地图集的“来自”源是否已完全映射 | 是/否 |
MTH_MAPSETCOMPLEXITY | 表示地图集的整体复杂度。要计算此字段: 1. 根据相同 TOEXPR 是否存在 >1 FROMEXPR 或 MTH_MAPTOCOMPLEXITY 指示 MULTIPLE,计算 FROMEXPR 基数(左侧)。 2. 根据相同 FROMEXPR 是否存在 >1 TOEXPR 或 MTH_MAPFROMCOMPLEXITY 表示 MULTIPLE,计算 TOEXPR 基数(右侧)。 3. RULE_BASED 如果 >1 非空不同 MAPSUBSETID | N_TO_N、N_TO_ONE、ONE_TO_N、ONE_TO_ONE 或 RULE_BASED |
MTH_MAPTOCOMPLEXITY | 两部分值,表示映射集中使用的“to”表达式的复杂性。有效值可以组合在逗号分隔的列表中 | 第 1 部分:SINGLE、LIST 或 BOOLEAN_EXPRESSION 第 2 部分:AUI、CODE、CUI、LUI、SAUI、SCUI、SDUI、SUI 或 STR |
MTH_MAPTOEXHAUSTIVE | 指示“目标”源是否已完全映射 | 是/否 |
MTH_UMLSMAPSETSEPARATOR | UMLS 元同义词库中用来作为源映射到的交叉映射目标的目标代码字段中各个代码之间的分隔符的字符。 | 和 |
例子:
C3826807|L11643734|S14441772|A23864609|CODE|MTHU000001|AT197916839||MAPSETRSAB|LCH_NW|LCH_NW|N||
C3826807|L11643734|S14441772|A23864609|CODE|MTHU000001|AT197916840||FROMVSAB|LCH_NW|LCH_NW_2013|N||
C3826807|L11643734|S14441772|A23864609|CODE|MTHU000001|AT197916842||TORSAB|LCH_NW|MSH|N||
2.10.1.4. MRMAP.RRF
MRMAP.RRF 包含有关相互映射的实体以及负责映射的源的信息。有关此文件的更多信息,请参阅第 3.3.13 节。
2.10.1.5. MRSMAP.RRF
此文件提供了 MRMAP.RRF 中大多数映射的更简单表示,以服务于不需要 MRMAP.RRF 数据结构的全部丰富的应用程序。有关此文件的更多信息,请参阅第 3.3.14 节。
2.10.1.6. MRREL.RRF
根据以下准则,映射子集在 MRREL.RRF 中以关系的形式冗余表示:
-
FROMEXPR 和 TOEXPR 是简单表达式
-
地图集不是基于规则的
-
REL 不是 XR
-
部分地图集可能以 MRREL 表示
目前没有简单的方法来识别 MRREL.RRF 中的跨源映射。这些关系的 RELA 目前包括“mapped_to/from”、“same_as”、“classified_as/classified_by”和空 RELA。所有这些 RELA 也用于源内 RELA。要识别跨源映射关系,请查找 MRREL.RRF 案例,其中 MRCONSO.RRF 中的 AUI1 和 AUI2 具有不同的 SAB 值,并且 STYPE1 和 STYPE2 都不是 CUI。
3 元同义词库 - 丰富发布格式 (RRF)
最后更新:2021 年 8 月 20 日。
Metathesaurus 用户可以从两种关系格式中进行选择:2004 年首次推出的 Rich Release Format (RRF) 和 Original Release Format (ORF)。这两种格式都可以作为MetamorphoSys(安装和自定义程序)的输出选项。
鼓励开发人员使用 RRF,它在源词汇透明度(即能够准确地表示每个源词汇的详细语义)方面具有显著优势;能够在元词库的版本之间生成完整和准确的变更集;并且更方便地表示概念名称、来源和分层上下文信息。
两种 Metathesaurus 格式都不是完全规范化的。根据设计,不同文件之间以及某些文件内的数据存在重复。特别是,不同的 Metathesaurus 概念之间的关系会出现两次(例如,从条目 A 到条目 B,从条目 B 到条目 A)。开发人员需要自行决定应在多大程度上保留、减少或增加这种冗余以适应其特定应用。
除MRRANK.RRF之外的所有文件都按行排序。
3.1. 数据文件
每个元词库条目中的数据可能以 20 多个不同的关系或文件表示。这些文件对应于第 2.3 - 2.6 节中描述的四个逻辑数据元素组和第 2.7 节中描述的索引,如下所示:
-
概念、概念名称及其来源 ( 2.3 ) = MRCONSO.RRF
-
属性(2.5)= MRSAT.RRF、MRDEF.RRF、MRSTY.RRF、MRHIST.RRF
-
关系 ( 2.4 ) = MRREL.RRF、MRCXT.RRF、MRHIER.RRF、MRMAP.RRF、MRSMAP.RRF
-
有关元词库的数据 ( 2.6 ) = MRFILES.RRF、MRCOLS.RRF、MRDOC.RRF、MRRANK.RRF、MRSAB.RRF、AMBIGLUI.RRF、AMBIGSUI.RRF、CHANGE/MERGEDCUI.RRF、CHANGE/MERGEDLUI.RRF、CHANGE/DELETEDCUI.RRF、CHANGE/DELETEDLUI.RRF、CHANGE/DELETEDSUI.RRF、MRCUI.RRF
-
索引(2.7)= MRXW_BAQ.RRF、MRXW_DAN.RRF、MRXW_DUT.RRF、MRXW_ENG.RRF、MRXW_FIN.RRF、MRXW_FRE.RRF、MRXW_GER.RRF、MRXW_HEB.RRF、MRXW_HUN.RRF、MRXW_ITA.RRF、MRXW_NOR.RRF、MRXW_POR.RRF、MRXW_RUS.RRF、MRXW_SPA.RRF、MRXW_SWE.RRF、MRXNW_ENG.RRF、MRXNS_ENG.RRF
3.2. 列和行
每个文件或命名的数据值表按照定义都有固定数量的列;行数取决于特定版本的元同义词库的内容。
列是给定数据元素或逻辑子元素中所有值的序列。通常,较长的可变长度数据元素的列将显示在较短和/或固定长度数据元素的列的右侧。文件中所有列的信息在 MRCOLS.RRF 和当前版本文档的列和数据元素页面上描述。
一行包含一个 Metathesaurus 条目的一个或多个数据元素或逻辑子元素的值。根据所涉及的数据元素的性质,每个 Metathesaurus 条目在给定文件中可能具有一行或多行。行中表示的不同数据元素或逻辑子元素的值由竖线 (|) 分隔。如果可选元素为空白,则仍使用竖线来保持后续元素的正确定位。每行都以竖线和行终止符结束。
3.3. 各文件说明
文件的描述按以下顺序出现:
1.关于元同义词库的关键数据:文件;列或数据元素;解释元同义词库数据元素和属性中出现的缩写含义的文档
2.概念名称及其词汇来源
3.属性
4.关系
5.有关元同义词库的其他数据
6.索引
每个文件描述列出了文件中出现的列或数据元素,并包括来自文件中的示例行。
3.3.1. 文件(文件 = MRFILES.RRF)
每个逻辑文件的每个物理段在此文件中只有一行。出现在多个文件中的数据元素(例如 CUI、AUI)将在此文件中占据多行。
Col. | Description |
---|---|
FIL | Physical FILENAME |
DES | Descriptive Name |
FMT | Comma separated list of column names (COL), in order |
CLS | # of COLUMNS |
RWS | # of ROWS |
BTS | Size in bytes in this format (ISO/PC or Unix) |
上校 | 描述 |
---|---|
外国投资局 | 物理文件名 |
数据加密标准 | 描述性名称 |
裂解酶 | 按顺序排列以逗号分隔的列名列表 (COL) |
中立证券 | 列数 |
远程工作站 | 行数 |
防弹少年团 | 此格式的大小(以字节为单位)(ISO/PC 或 Unix) |
样本记录
MRSTY.RRF|语义类型|CUI、TUI、STN、STY、ATUI、CVF|6|2630816|149735178|
3.3.2. 数据元素(文件 = MRCOLS.RRF)
每个文件中的每个列或数据元素在此文件中恰好占一行。出现在多个文件中的数据元素(例如 CUI、AUI)将在此文件中占多行。
Col. | Description |
---|---|
COL | Column or data element name |
DES | Descriptive Name |
REF | Documentation Section Number |
MIN | Minimum Length, Characters |
AV | Average Length |
MAX | Maximum Length, Characters |
FIL | Physical FILENAME in which this field occurs |
DTY | SQL-92 data type for this column |
上校 | 描述 |
---|---|
科尔 | 列或数据元素名称 |
数据加密标准 | 描述性名称 |
参考 | 文档章节编号 |
分钟 | 最小长度,字符 |
AV | 平均长度 |
最大限度 | 最大长度,字符 |
外国投资局 | 此字段所在的物理文件名 |
涤纶低弹丝 | 此列的 SQL-92 数据类型 |
样本记录
AUI|原子的唯一标识符||8|8.57|9|MRCONSO.RRF|varchar(9)|
CODE|源中字符串的唯一标识符或代码||1|7.23|30|MRCONSO.RRF|varchar(50)|
3.3.3. 缩写值的文档(文件 = MRDOC.RRF)
对于选定的数据元素或属性的每个允许值,此表中只有一行,这些元素或属性的允许值有有限数量的缩写。此类数据元素的示例包括 TTY、ATN、TS、STT、REL、RELA。
Col. | Description |
---|---|
DOCKEY | Data element or attribute |
VALUE | Abbreviation that is one of its values |
TYPE | Type of information in EXPL column |
EXPL | Explanation of VALUE |
上校 | 描述 |
---|---|
船用多基 | 数据元素或属性 |
价值 | 缩写,是其值之一 |
类型 | EXPL 列中的信息类型 |
扩张 | VALUE 的解释 |
样本记录
ATN|DDF|expanded_form|药物剂型(如咀嚼片)|
ATN|FDA_UNII_CODE|expanded_form|FDA UNII 代码|
*注:MetamorphoSys 生成的 MRDOC 文件包含有关发布本身的元数据。以下是记录示例:
RELEASE|mmsys.build.date|release_info|2010_10_19_11_52_39|
发布|mmsys.版本|发布信息|MMSYS-2010AB-20101019|
3.3.4. 概念名称和来源(文件 = MRCONSO.RRF)
此文件中恰好有一行对应于元词库中的每个原子(每个源词汇中每个唯一字符串或概念名称的每次出现),即,恰好有一行对应于元词库中的每个唯一 AUI。元词库中的每个字符串或概念名称都出现在此文件中,与其语言、源词汇和概念标识符相关联。TS、STT 和 ISPREF 的值反映了 MRRANK.RRF 中词汇源和术语类型的默认优先顺序。(表 1)
表 1.
概念名称和来源(文件 = MRCONSO.RRF)
样本记录
C0001175|ENG|P|L0001175|VO|S0010340|Y|A0019182||M0000245|D000163|MSH|PM|D000163|获得性免疫缺陷综合征|0|N||
C0001175|ENG|S|L0001842|PF|S0011877|N|A2878223|103840012|62479008||SNOMEDCT_US|PT|62479008|艾滋病|9|N|2304|
C0001175|ENG|P|L0001175|VO|S0354232|Y|A2922342|103845019|62479008||SNOMEDCT_US|SY|62479008|获得性免疫缺陷综合征|9|N|2304|
C0001175|FRE|S|L0162173|PF|S0226654|Y|A27478989||M0000245|D000163|MSHFRE|ET|D000163|SIDA|3|N||
C0001175|RUS|S|L0904943|PF|S1108760|Y|A13488500||M0000245|D000163|MSHRUS|SY|D000163|SPID|3|N||
3.3.5. 简单概念和原子属性(文件 = MRSAT.RRF)
对于没有子元素结构的每个概念、原子或关系属性,此表中只有一行。所有元词库概念和少数元词库关系在此文件中都有条目。此文件包括所有不属于其他类别的源词汇表属性。(表 2)
样本记录
C0001175|L0001175|S0010339|A0019180|SDUI|D000163|AT38209082||FX|MSH|D015492|N||
C0001175|||R54775538|RUI||AT173814751||CHARACTERISTIC_TYPE_ID|SNOMEDCT_US|900000000000011006|O||
C0001175|||R54775538|RUI||AT174785253||MODIFIER_ID|SNOMEDCT_US| 900000000000451002|O||
3.3.6. 定义(文件 = MRDEF.RRF)
此文件中只有一行对应于 Metathesaurus 中的每个定义。定义是原子(源词汇表中出现的字符串)的属性。一些定义的长度接近 3,000 个字符。(表 3)
样本记录
C0001175|A0019180|AT38139119||MSH|与人类免疫缺陷病毒 (HIV) 感染相关的获得性细胞免疫缺陷,CD4 阳性 T 淋巴细胞计数低于 200 个细胞/微升或低于总淋巴细胞的 14%,并且更容易感染机会性感染和恶性肿瘤。临床表现还包括消瘦(消瘦)和痴呆。这些因素反映了 CDC 于 1993 年定义的艾滋病标准。|N||
C0001175|A0021048|AT51221477||CSP|一种或多种指示性疾病,取决于 HIV 感染的实验室证据(CDC);HIV 感染晚期的特征是免疫功能明显抑制,导致机会性感染、肿瘤和其他全身症状(NIAID)。|N||
C0001175|A7568512|AT198127773||NCI_NCI-GLOSS|由人类免疫缺陷病毒 (HIV) 引起的疾病。患有后天免疫缺陷综合征的人患某些癌症和感染的风险较高,而这些感染通常只发生在免疫系统较弱的个体中。|N||
3.3.7. 语义类型(文件 = MRSTY.RRF)
此文件中为每个概念分配的每种语义类型都只有一行。所有元同义词库概念在此文件中至少有一个条目。许多概念有多个条目。TUI、STN 和 STY 都是 UMLS语义网络的直接链接。
Col. | Description |
---|---|
CUI | Unique identifier of concept |
TUI | Unique identifier of Semantic Type |
STN | Semantic Type tree number |
STY | Semantic Type. The valid values are defined in the Semantic Network. |
ATUI | Unique identifier for attribute |
CVF | Content View Flag. Bit field used to flag rows included in Content View. This field is a varchar field to maximize the number of bits available for use. |
上校 | 描述 |
---|---|
崔 | 概念的唯一标识符 |
途易 | 语义类型唯一标识符 |
斯坦尼 | 语义类型树数量 |
斯特林 | 语义类型。有效值在语义网络中定义。 |
澳大利亚交通部 | 属性的唯一标识符 |
心血管功能衰竭 | 内容视图标志。用于标记内容视图中包含的行的位字段。此字段为 varchar 字段,用于最大化可用的位数。 |
样本记录
C0001175|T047|B2.2.1.2.1|疾病或综合征|AT17683839|2304|
3.3.8. 历史记录(文件 = MRHIST.RRF)
此文件跟踪源断言历史信息。它目前仅包含 SNOMED CT 历史记录。(表 4)
样本记录
C0000294|108821000|SNOMEDCT|20001101|0|CONCEPTSTATUS|0|||
C0000294|108821000|SNOMEDCT|20020731|2|CONCEPTSTATUS|0|FULLYSPECIFIEDNAME CHANGE||
C0000294|1185494016|SNOMEDCT|20020731|0|DESCRIPTIONSTATUS|0|||
C0000294|1185494016|SNOMEDCT|20100731|2|DESCRIPTIONSTATUS|0|初始资本状态变更||
C0000294|1461100014|SNOMEDCT|20030131|0|DESCRIPTIONSTATUS|0|||
3.3.9. 相关概念(文件 = MRREL.RRF)
该表(表 5 )中每行对应Metathesaurus 所知的概念或原子之间的关系,但其他文件中存在以下例外:MRMAP.RRF 和 MRSMAP.RRF 中发现的两个源词汇之间的成对映射关系。
请注意,对于非对称关系,关系的每个方向都有一行。还请注意 REL 的方向 - 第二个概念或原子(具有概念唯一标识符 CUI2 和原子唯一标识符 AUI2)与第一个概念或原子(具有概念唯一标识符 CUI1 和原子唯一标识符 AUI1)之间的关系。
样本记录
C0002372|A0022283|AUI|SY|C0002372|A16796726|AUI||R55153988||RXNORM|RXNORM|||N||
C0002372|A0022283|AUI|RO|C2241537|A14211642|AUI|has_ingredient|R91984327||MMSL|MMSL|||N||
3.3.10. 共现概念(文件 = MRCOC.RRF - 2013AA 版本之后,此文件在 UMLS 中不再可用。)
注意:2013AA 版本发布后,UMLS 中不再提供共现信息。更新的共现数据可在MEDLINE 共现 (MRCOC) 页面的文本文件中获取。
该文件包括外部数据源中含义共现的统计汇总。这些存在于 AUI 级别。此表中每对原子在所表示的每个信息源中共现,每行有两行:关系的每个方向各一行。(请注意,关系的每个方向的 COA 数据可能不同。)许多 Metathesaurus 概念在此文件中没有条目。由于共现关系数量非常大,因此它们分布在单独的文件中。(表 6)
共现是指概念在某个信息源的相同条目中同时出现。此处表示的关系是通过对信息源进行机器处理获得的。共现关系可能存在于相似概念之间(例如,心房颤动和心律失常),也可能存在于非常不同但在生物医学领域具有重要联系的概念之间(例如,心房颤动和地高辛),也可能存在于主要概念和限定词之间(例如,碎石术和仪器)。两个没有其他明显关系的概念之间可能存在共现关系,尽管这种共现的频率会很小。
在当前的 Metathesaurus 中,有三个共现数据来源:MEDLINE、AI/RHEUM 和 CCPSS。从 MEDLINE 中,共现数据是针对在同一期刊文章中被指定为主要或要点的概念计算的,即,共现计数不包括其中一个或两个概念存在并在 MEDLINE 中编入索引但未被指定为要点的文章。(如果主标题或其任何子标题带有 *,则该概念被视为要点。)
提供了 MEDLINE 共现的两种总体频率:一种是最近的 MEDLINE 数据 (MED),另一种是前几年的 MEDLINE 数据 (MBD)。当第一个概念与第二个概念共现时,会提供不同的 MeSH 限定词或根本没有限定词的频率的单独计数。共现关系的每个方向都有单独的条目。每个条目中相关的子标题出现信息属于条目中的第一个概念,因此对于关系的每个方向都是不同的。
除了与两个共现概念相关的特定限定词信息之外,该元素还在具有共现类型的 LQ 和 LQB 值的条目中包含每个主要概念被特定子标题或无子标题限定的次数的总和。
AI/RHEUM 共现数据表示 AI/RHEUM 知识库中疾病和发现的共现情况,即与特定发现共现的疾病和与特定疾病共现的发现。每个疾病/发现对在 AI/RHEUM 知识库中只能共现一次。
在 CCPSS 中,共现数据是从病人记录中提取的,包括病人记录中的问题-问题共现以及问题-修饰词共现。
样本记录
C0000294|A0085139|C0002423|A0022422|MED|L|1|AD=1,TU=1||
C0000294|A0085139|C0003962|A0026887|MBD|L|1|AA=1,BL=1,PK=1||
C0000294|A0085139|C0006434|A0033347|MBD|L|1|AD=1,PD=1||
3.3.11. 可计算层次结构 (文件 = MRHIER.RRF)
此文件为各个原子出现的每个层次结构或上下文包含一行。如果源词汇表不包含层次结构,则其原子在此文件中不会有行。如果源词汇表是多层次的(允许同一个原子出现在多个层次结构中),则其中一些原子将在此文件中有多个行。MRHIER.RRF(表 7)提供了所有 Metathesaurus 源词汇表中存在的所有层次结构的完整而紧凑的表示。可以通过将此文件中的数据与 MRCONSO.RRF 中的数据相结合来计算层次结构显示。MRHIER.RRF 中表示的距离为 1 的关系(即直接父级和直接子级关系)也出现在 MRREL.RRF 中。
表 7.
可计算层次结构(文件 = MRHIER.RRF)
样本记录
C0001175|A2878223|1|A3316611|SNOMEDCT_US|isa|A3684559.A3886745.A2880798.A24813547.A3082701.A3316611|||
C0001175|A2878223|2|A23017839|SNOMEDCT_US|isa|A3684559.A3886745.A2880798.A24813547.A3082701.A3398847.A3398762.A2888699,A23017839| ||
C0001175|A2878223|3|A3316611|SNOMEDCT_US|isa|A3684559.A3886745.A2880798.A24813547.A3287869.A3316611|||
要查找层次结构中使用的特定概念名称,请查找 MRCONSO.RRF 中的 AUI 和 STR 数据元素中的原子标识符。
NLM 编辑器不声明概念级(CUI 到 CUI)层次关系。层次关系由原子级(AUI 到 AUI)的源声明。
对于大多数源词汇表,RELA 的值(如果存在)适用于层次结构中的顶部或根。换句话说,它也适用于原子的父级和原子的祖父级之间的关系等。此版本的 Metathesaurus 中的两个例外是 GO(基因本体论)和 NIC(护理干预分类)。除了 GO 和 NIC 原子外,原子祖先(父级、祖父级等)的 MRHIER 行不包含除源断言的层次编号或代码 (HCD) 之外的附加信息。如果对此不感兴趣,可能没有理由为原子的祖先找到 MRHIER 行。
要在特定上下文中查找原子的兄弟,请查找所有共享其 SAB、RELA* 和 PTR 值的 MRHIER.RRF 行。
要在特定上下文中查找原子的子项,请将句点 (.) 和原子的 AUI 附加到其 PTR,并查找所有 MRHIER.RRF 行及其 SAB、RELA* 和扩展的 PTR。
*需要 RELA 来检索华盛顿大学数字解剖学家 (UWDA) 层次结构的正确同级和子级。一些 UWDA 原子出现在多个层次结构中,这些层次结构仅通过其 RELA 值来区分。
3.3.12. 上下文(文件 = MRCXT.RRF)
该文件不再默认创建。它已被 MRHIER.RRF 取代,后者是层次结构的正确、完整且可计算的表示。需要 MRCXT(表 8 )文件的用户需要在创建子集后创建该文件。要创建 MRCXT 文件,请使用新的 MRCXT Builder 应用程序,可从 MetamorphoSys 欢迎屏幕访问。有关 MRCXT Builder 的信息可在UMLS - MetamorphoSys MRCXT Builder找到。以下信息描述了 MRCXT Builder 生成文件时的内容。
这个非常大的文件包含预先计算的层次结构上下文信息(包括概念名称),旨在方便显示 UMLS 源词汇表中的层次结构。可以通过将 MRHIER.RRF 文件与 MRCONSO.RRF 合并来计算此文件中的所有信息(加上其他兄弟关系)。对于任何 UMLS 源词汇表中层次结构中出现的原子,此文件中可以有许多行 - 即本讨论中的“上下文”。许多 Metathesaurus 概念有许多具有上下文的原子,而其他概念可能没有。每个上下文的行数取决于原子在该上下文中具有的祖先、兄弟或子术语的数量。由于某些原子在同一源中具有多个上下文,例如 MeSH,因此使用上下文编号(CXN - 例如 1、2、3)来标识同一上下文的所有成员。CXN 不是全局的,而是根据需要为每个原子创建的。可以使用 CUI-AUI-SAB-CXN 键检索单个原子的每个不同上下文。
样本记录
C0001175|S0011877|A0021048|CSP|1560-6271|4|ANC|5|获得性免疫缺陷|C0596032|A1171599|||||
C0001175|S0011877|A0021048|CSP|1560-6271|4|CCP||艾滋病|C0001175|A0021048|||||
C0001175|S0011877|A0021048|CSP|1560-6271|4|CHD||艾滋病相关肿瘤/癌症|C0920774|A1882809|||||
C0001175|S0011877|A0021048|CSP|1560-6271|4|SIB||毛细胞白血病|C0023443|A0480441|||||
3.3.13. 映射(文件 = MRMAP.RRF)
此文件包含词汇表之间的映射集。大多数映射都是两个不同词汇表的代码/标识符(或由代码/标识符形成的表达式)之间的映射。每组映射中至少有一个词汇表存在于 Metathesaurus 中;通常两个词汇表都存在。一组映射中出现的词汇表版本可能与其他 Metathesaurus 发布文件中出现的词汇表版本不同。映射集中词汇表的版本由映射集概念的 FROMVSAB 和 TOVSAB 属性指定(见下文)。用户应注意,映射仅在这些属性中指定的词汇表版本之间有效。映射集本身的版本由映射集概念的 MAPSETVERSION 属性指定。
MRMAP.RRF(表 9)文件很复杂,允许更复杂的映射。在可能的情况下,所有映射也都表示在下面描述的更简单的 MRSMAP.RRF 文件中。
每组映射都由 MRCONSO.RRF 中的映射集概念表示(TTY = 'XM'),由 CUI(MAPSETCUI)标识。映射集的元数据在 MRSAT.RRF 中作为映射集概念的属性找到。每个映射集都有三个与之关联的 SAB 值:映射集本身的 SAB(MAPSETVSAB)、被映射源的 SAB(FROMVSAB)和被映射到的源的 SAB(TOVSAB)。因此,单个映射集仅声明从一个源到另一个源的映射。
映射的子集在 MRREL.RRF 中冗余地表示为映射至 (mapped_to) 和映射自 (mapped_from) 关系。这些是 UMLS 中两个词汇表之间的一对一映射。这些一般关系不如映射文件精确,因为映射集中词汇表的版本与其余元词库文件中词汇表的版本之间的任何差异都会被忽略。在少数情况下,此类差异可能会影响 MRREL.RRF 中关系的有效性。
有三组映射包含从元词库概念(由 CUI 表示)到由一个或多个概念名称形成的表达式的映射。这些映射以前称为关联表达式,并且都具有 MAPTYPE='ATX'。这些数据来自早期的映射工作,并在 ORF 中的 MRATX 文件中表示。
示例记录
图集概念(在 MRCONSO.RRF 中):
C1306694|ENG|P|L14542194|PF|S17644451|Y|A28926527||||MTH|XM|1000|MSH2018_2018_02_05 相关表达|0|N||
地图集元数据(在 MRSAT.RRF 中):
C1306694|L14542194|S17644451|A28926527|CODE|1000|AT232101656||MAPSETVERSION|MTH|2018_2018_02_05|N||
C1306694|L14542194|S17644451|A28926527|CODE|1000|AT232101657||TOVSAB|MTH|MSH2018_2018_02_05|N||
映射(在 MRMAP.RRF 中):
C1306694|MTH|||AT28307527||C0011764||C0011764|CUI|||RO||2201||<发育障碍> 和 <写作>|BOOLEAN_EXPRESSION_STR|||||ATX||||
C1306694|MTH|||AT52620421||C0010700||C0010700|CUI|||RN||1552||<膀胱>/<手术>|BOOLEAN_EXPRESSION_STR|||||ATX||||
3.3.14. 简单映射(文件 = MRSMAP.RRF)
此文件提供了 MRMAP.RRF 中大多数映射的更简单表示(表 10),以服务于不需要 MRMAP.RRF 数据结构的全部丰富性的应用程序。通常,支持基于规则的处理的映射需要 MRMAP.RRF 的附加字段(例如 MAPRANK、MAPRULE、MAPRES),并且不会在 MRSMAP.RRF 中表示。更具体地说,所有具有 MAPSUBSETID 和 MAPRANK 非空值的映射都将从 MRSMAP.RRF 中排除。
样本记录
C1306694|MTH|AT28312030||C0009215|CUI|SY||<可待因> 和 <药物过敏>|BOOLEAN_EXPRESSION_STR||
C1306694|MTH|AT28312033||C0795964|CUI|RU||<言语障碍>|BOOLEAN_EXPRESSION_STR||
3.3.15. 源信息(文件 = MRSAB.RRF)
Metathesaurus 在数据文件中具有“无版本”或“根”源缩写 (SAB)。MRSAB.RRF 将根 SAB 与当前版本的完整指定版本信息联系起来。例如,MeSH 的发布 SAB 现在只是“MSH”。在 MRSAB.RRF(表 11)中,您将看到当前版本的 SAB,例如 MSH2003_2002_10_24。MRSAB.RRF 允许所有其他 Metathesaurus 文件使用无版本源缩写,以便版本之间没有数据变化的所有行保持不变。MetamorphoSys 可以生成具有根或版本化 SAB 的文件,因此任何一种形式都可以在 Metathesaurus 的自定义子集中使用。
Table 11.
Source Information (File = MRSAB.RRF)
Field | Full Name | Description |
---|---|---|
VCUI | CUI | CUI of the versioned SRC concept for a source |
RCUI | Root CUI | CUI of the root SRC concept for a source |
VSAB | Versioned Source Abbreviation | The versioned source abbreviation for a source, e.g., MSH2003_2002_10_24 |
RSAB | Root Source Abbreviation | The root source abbreviation for a source e.g., MSH |
SON | Official Name | The official name for a source |
SF | Source Family | The source family for a source |
SVER | Version | The source version, e.g., 2001 |
VSTART | Meta Start Date | The date a source became active, e.g., 2001_04_03 |
VEND | Meta End Date | The date a source ceased to be active, e.g., 2001_05_10 |
IMETA | Meta Insert Version | The version of the Metathesaurus in which a source first appeared, e.g., 2001AB |
RMETA | Meta Remove Version | The version of the Metathesaurus in which the source last appeared, e.g., 2001AC |
SLC | Source License Contact | The source license contact field contains the following semi-colon-separated subfields: Name Title Organization Address 1 Address 2 City State/Prov. Country Zip Telephone Fax URL |
SCC | Source Content Contact | The source content contact field contains the following semi-colon-separated subfields: Name Title Organization Address 1 Address 2 City State/Prov. Country Zip Telephone Fax URL |
SRL | Source Restriction Level | 0, 1, 2, 3, 4, 9 - explained in the License Agreement |
TFR | Term Frequency | The number of terms for this source in MRCONSO.RRF, e.g., 12343 |
CFR | CUI Frequency | The number of CUIs associated with this source, e.g., 10234 |
CXTY | Context Type | The type of contexts for this source. Values are FULL, FULL-MULTIPLE, null. |
TTYL | Term Type List | Term type list from source, e.g., MH, EN, PM, TQ |
ATNL | Attribute Name List | The attribute name list (from MRSAT.RRF), e.g., MUI, RN, TH |
LAT | Language | The language of the terms in the source |
CENC | Character Encoding | All UMLS content is provided in Unicode, encoded in UTF-8. MetamorphoSys will allow exclusion of extended characters with some loss of information. Transliteration to other character encodings is possible but not supported buy NLM; for further information, see http://www.unicode.org |
CURVER | Current Version | A Y or N flag indicating whether or not this row corresponds to the current version of the named source |
SABIN | Source in Subset | A Y or N flag indicating whether or not this row is represented in the current MetamorphoSys subset. Initially always Y where CURVER is Y, but later is recomputed by MetamorphoSys. |
SSN | Source Short Name | The short name of a source as used by the UMLS Terminology Services |
SCIT | Source Citation | For sources released in 2014AA and later, the citation field contains the following semi-colon-separated subfields: Author name(s) Personal author address Organization author(s) Editor(s) Title Content Designator Medium Designator Edition Place of Pub. Publisher Date of pub. or copyright Date of revision Location Extent Series Avail. Statement (URL) Language Notes Empty Subfield Empty Subfield The citation field for sources released prior to 2014AA will be updated as resources permit. |
源信息(文件 = MRSAB.RRF)
场地 | 姓名 | 描述 |
---|---|---|
虚拟用户界面 | 崔 | 源的版本化 SRC 概念的 CUI |
右心房重建 | 崔根 | 源的根 SRC 概念的 CUI |
电压稳定平衡 | 版本源缩写 | 来源的版本化来源缩写,例如 MSH2003_2002_10_24 |
皇家鸟类保护协会 | 根源缩写 | 来源的根源缩写,例如 MSH |
儿子 | 正式名称 | 来源的正式名称 |
旧金山 | 源家庭 | 源的源系列 |
斯维 | 版本 | 源版本,例如 2001 |
起始电压 | 元开始日期 | 来源生效的日期,例如 2001_04_03 |
鬻 | 元结束日期 | 来源停止活动的日期,例如 2001_05_10 |
意大利国际玩具及运动器材展览会 | 元插入版本 | 来源首次出现的元同义词库版本,例如 2001AB |
远程医疗电子技术协会 | Meta 删除版本 | 来源最后出现的元同义词库版本,例如 2001AC |
速尔 | 源许可联系方式 | 源许可证联系人字段包含以下以分号分隔的子字段: 姓名 职务 组织 地址 1 地址 2 城市 州/省 国家 邮编 电话 传真 电子邮件 URL |
鳞状细胞癌 | 来源 内容 联系方式 | 源内容联系人字段包含以下以分号分隔的子字段: 姓名 职务 组织 地址 1 地址 2 城市 州/省 国家 邮编 电话 传真 电子邮件 URL |
沙特基础工业公司 | 源限制级别 | 0、1、2、3、4、9 - 许可协议中有说明 |
总生育率 | 词频 | MRCONSO.RRF 中此源的术语数,例如 12343 |
疾病控制与预防中心 | 冷却塔下电弧频率 | 与此源关联的 CUI 数量,例如 10234 |
星火 | 上下文类型 | 此源的上下文类型。值为 FULL、FULL-MULTIPLE 和 null。 |
下次再谈 | 术语类型列表 | 来源的术语类型列表,例如 MH、EN、PM、TQ |
亚特兰大 | 属性名称列表 | 属性名称列表(来自 MRSAT.RRF),例如 MUI、RN、TH |
拉特 | 语言 | 来源术语的语言 |
中央空调公司 | 字符编码 | 所有 UMLS 内容均以 Unicode 提供,采用 UTF-8 编码。MetamorphoSys 将允许排除扩展字符,但会丢失一些信息。可以音译为其他字符编码,但不支持购买 NLM;有关更多信息,请参阅http://www .unicode.org |
曲线 | 当前版本 | AY 或 N 标志,指示此行是否对应于指定源的当前版本 |
萨宾 | 子集中的源 | AY 或 N 标志指示此行是否在当前 MetamorphoSys 子集中表示。最初始终为 Y,其中 CURVER 为 Y,但后来由 MetamorphoSys 重新计算。 |
社保号 | 源简称 | UMLS 术语服务使用的源的简称 |
脊髓损伤与脊髓损伤 | 来源引文 | 对于 2014AA 及以后发布的来源,引文字段包含以下以分号分隔的子字段: 作者姓名 个人作者地址 组织作者 编辑 标题 内容指示器 媒介指示器版本 出版 地点出版商 出版 日期或版权 修订日期 位置 范围 系列 可用性声明 (URL) 语言 注释 空子字段 空子字段 2014AA 之前发布的来源的引文字段将在资源允许时更新。 |
此文件中的每行对应当前 Metathesaurus 中每个来源的每个版本;最终还会有历史信息,其中每行对应出现在任何 Metathesaurus 版本中的每个来源的每个版本。请注意,字段 CURVER 的值为 Y,用于标识此 Metathesaurus 版本中的版本。MRSAB.RRF 的未来版本也将在 CURVER 值为 N 的行中包含历史版本信息。
具有上下文的源具有“完整”上下文,即所有级别的术语都可能具有祖先、父母和子级。完整上下文还可以进一步指定为多个。
多个表示此源中的单个概念可能有多个层次位置。
当前版本文档的UMLS源词汇文档页面列出了元词库中的每个来源,并包含有关每个来源的上下文类型(如果有)的信息。
样本记录
C4550278|C1140284|RXNORM_17AB_180305F|RXNORM|RxNorm 词汇,17AB_180305F|RXNORM|17AB_180305F|||2018AA||RxNorm 客户服务;;美国国家医学图书馆;8600 Rockville Pike;;Bethesda;MD;美国;20894;(888) FIND-NLM;;rxnorminfo@nlm.nih.gov;https://www.nlm.nih.gov/research/umls/rxnorm/|RxNorm 客户服务;;美国国家医学图书馆;8600 Rockville Pike;;Bethesda;MD;美国;20894;(888) FIND-NLM;;rxnorminfo@nlm.nih.gov;https://www.nlm.nih.gov/research/umls/rxnorm/|0|319274|208301||BN,BPCK,DF,DFG,ET,GPCK,IN,MIN,PIN,PSN,SBD,SBDC,SBDF,SBDG,SCD,SCDC,SCDF,SCDG,SY,TMSY|AMBIGUITY_FLAG,NDC,ORIG_CODE,ORIG_SOURCE,RXAUI,RXCU I,RXN_ACTIVATED,RXN_AVAILABLE_STRENGTH,RXN_BN_CARDINALITY,RXN_HUMAN_DRUG,RXN_IN_EXPRESSED_FLAG,RXN_OBSOLETED,RXN_QUALITATIVE_DISTINCTION,RXN_QUANTITY,RXN_STRENGTH,RXN_VET_DRUG,RXTERM_FORM|ENG|UTF-8|Y|Y|RXNORM|;;;;RxNorm;;;META2017AB 完整更新 2018_03_05;马里兰州贝塞斯达;美国国家医学图书馆;;;;;;;;|
3.3.16. 概念名称排序 (文件=MRRANK.RRF)
每个 Metathesaurus 源词汇表(每个 SAB-TTY 组合)中的每个概念名称类型都有一行。分布式文件中的 RANK 和 SUPPRESS 值是 Metathesaurus 生产中使用的值。用户可以自由更改这些值以满足他们的需求和偏好,然后使用 MetamorphoSys 创建自定义 Metathesaurus,更改命名优先级和可抑制性。(表 12)
表 12.
概念名称排序(文件=MRRANK.RRF)
样本记录
Sample Records
0624|AIR|SY|N|
0438|PDQ|IS|Y|
0377|LNC|LO|Y|
0624|空气|SY|N|
0438|PDQ|是|是|
0377|LNC|LO|Y|
3.3.17. 模糊术语标识符 (文件 = AMBIGLUI.RRF)
如果词汇唯一标识符 (LUI) 链接到多个概念唯一标识符 (CUI),则此表中每对 LUI-CUI 都有一行。此文件标识了元同义词库中具有多重含义的词汇变体类别。
在 Metathesaurus 中,LUI 将英语中所有被 UMLS SPECIALIST 词典和工具中的 luinorm 程序识别为彼此词汇变体的字符串链接起来。LUI 的分配与每个字符串的含义无关。此表可能对希望在其应用程序中使用词汇程序来识别和消除歧义术语的系统开发人员有用。
Col.Description
LUI Lexical Unique Identifier
CUI Concept Unique Identifier
上校 | 描述 |
---|---|
陆 | 词汇唯一标识符 |
崔 | 概念唯一标识符 |
样本记录
L0000003|C0010504|
L0000003|C0917995|
L0000032|C0010206|
L0000032|C0010207|
3.3.18. 模糊字符串标识符(文件 = AMBIGSUI.RRF)
如果字符串唯一标识符 (SUI) 链接到多个概念唯一标识符 (CUI),则此表中每个 SUI-CUI 对都有一行。
此文件位于 META 目录中。在 Metathesaurus 中,每种语言中的每个唯一字符串只有一个 SUI,即使该字符串有多个含义。此表仅对在其应用程序或本地数据文件中使用 SUI 的系统开发人员有用。
Col. Description
SUI String Unique Identifier
CUI Concept Unique Identifier
上校 | 描述 |
---|---|
隋 | 字符串唯一标识符 |
崔 | 概念唯一标识符 |
样本记录
S0000176|C0042266|
S0000176|C2004487|
S0000217|C0024817|
S0000217|C0555026|
3.3.19. 元同义词库变更文件
有六个文件或关系可识别 Metathesaurus 上一版和当前版条目之间的主要差异。开发人员可以使用这些特殊文件来确定是否存在影响其应用程序的更改。
单个文件的实用性取决于元同义词库中的数据如何链接或合并到特定应用程序中。
每个关系或命名数据表都有固定数量的列和可变数量的行。列是给定数据元素中所有值的序列。行包含一个条目的两个或多个数据元素的值。行中不同数据元素的值用竖线 (|) 分隔。每行以竖线和行结束。
3.3.19.1. 已删除的概念(文件 = CHANGE/DELETEDCUI.RRF)
此文件中报告了元同义词库中不再存在其含义的概念。每个存在于上一版本中但当前版本中不存在的概念都有一行。如果含义存在于当前版本中,即缺失的概念已与另一个当前概念合并,则会在 MERGEDCUI.RRF 文件(第 3.3.19.2 节)中报告,而不会在此文件中报告。
Col. Description
PCUI Concept Unique Identifier in the previous Metathesaurus
PSTR Preferred name of this concept in the previous Metathesaurus
上校 | 描述 |
---|---|
个人电脑用户界面 | 上一版元同义词库中的概念唯一标识符 |
磷脂酶 | 上一版元同义词库中此概念的首选名称 |
3.3.19.2. 合并概念(文件 = CHANGE/MERGEDCUI.RRF)
此表中每个已发布的概念(上一个元同义词库 (CUI1))都对应一行,这些概念已合并到上一个元同义词库 (CUI2) 中的另一个已发布概念中。发生此合并时,第一个 CUI (CUI1) 已退役;此表显示此元同义词库中已合并概念的 CUI (CUI2)。
此文件中的条目代表在上一版本中被认为具有不同含义但现在被标识为同义词的概念对。
Col. Description
PCUI1 Concept Unique Identifier in the previous Metathesaurus
CUI Concept Unique Identifier in this Metathesaurus in format C#######
上校 | 描述 |
---|---|
个人计算机用户界面1 | 上一版元同义词库中的概念唯一标识符 |
崔 | 此元同义词库中的概念唯一标识符采用 C####### 格式 |
3.3.19.3. 已删除条款 (文件=CHANGE/DELETEDLUI.RRF)
对于每个在上一个元同义词库中出现但未在此元同义词库中出现的词汇唯一标识符 (LUI),此表中均有一行。
LUI 由 luinorm 程序分配,该程序是 UMLS SPECIALIST 词典和工具中 lvg 程序的一部分;参见第 6 章。
这些条目代表了之前版本的 luinorm 程序识别的 LUI(用于识别之前 Metathesaurus 中的词汇变体)在此版本的 Luinorm 中不再可用的情况。这并不一定意味着从 Metathesaurus 中删除了字符串或概念。
Col. Description
PLUI Lexical Unique Identifier in the previous Metathesaurus
PSTR Preferred Name of Term in the previous Metathesaurus
上校 | 描述 |
---|---|
局部上皮感染 | 上一版元同义词库中的词汇唯一标识符 |
磷脂酶 | 上一版元同义词库中的术语首选名称 |
3.3.19.4. 合并条款(文件 = CHANGE/MERGEDLUI.RRF)
对于每种情况,此文件中都有一行,其中字符串在前一个元同义词库中具有不同的词汇唯一标识符 (LUI),但在此元同义词库中共享相同的 LUI;因此,前一个元同义词库中存在的 LUI 在此元同义词库中不存在。
LUI 由 luinorm 程序分配,该程序是 UMLS SPECIALIST 词典和工具中 lvg 程序的一部分;参见第 6 章。
这些条目代表了由前一版本的 luinorm 程序版本标识的单独词汇变体与由此版本的 luinorm 标识的单个词汇变体的情况。
Col. | Description |
---|---|
PLUI | Lexical Unique Identifier in the previous Metathesaurus but not present in this Metathesaurus |
LUI | Lexical Unique Identifier into which it was merged in this Metathesaurus |
上校 | 描述 |
---|---|
局部上皮感染 | 上一元同义词库中存在词汇唯一标识符,但本元同义词库中不存在 |
陆 | 在该元同义词库中被合并到的词汇唯一标识符 |
3.3.19.5. 已删除的字符串(文件 = CHANGE/DELETEDSUI.RRF)
对于每种语言中的每个字符串,此文件中均有一行,这些字符串出现在上一个元同义词库的条目中,但未出现在此元同义词库中。
请注意,这并不一定意味着从元同义词库中删除术语(LUI)或概念(CUI)。在一种语言中删除的字符串可能仍会出现在另一种语言的元同义词库中。
Col. | Description |
---|---|
PSUI | String Unique Identifier in the previous Metathesaurus that is not present in this Metathesaurus |
PSTR | Preferred Name of Term in the previous Metathesaurus that is not present in this Metathesaurus |
上校 | 描述 |
---|---|
聚苯乙烯磺酸钠 | 前一个元同义词库中不存在但此元同义词库中不存在的字符串唯一标识符 |
磷脂酶 | 上一元同义词库中首选的术语名称,但本元同义词库中不存在 |
3.3.19.6. 已退役的 CUI 映射(文件 = MRCUI.RRF)
对于任何先前版本中存在但在当前版本中不存在的每个概念唯一标识符 (CUI),此文件 (表 13 )中都有一行或多行。该文件包括与当前 CUI 的同义映射,或与一个或多个相关当前 CUI 的映射(如果可能)。如果找不到同义映射,则可以创建 CUI 之间的其他关系。这些关系可以是更广泛 (RB)、更狭窄 (RN)、其他相关 (RO)、已删除 (DEL) 或从子集中删除 (SUBX)。MetamorphoSys 将具有 SUBX 关系的行添加到 MRCUI 中,用于符合排除标准并因此从子集中删除的每个 CUI。使用这些关系可以将某些 CUI 映射到多个其他 CUI。
当 (1) 两个已发布的概念被发现是同义词并因此被合并,从而停用一个 CUI;(2) 该概念不再出现在任何源词汇表中且未被 NLM“拯救”;或 (3) 该概念是源词汇表中公认的错误或被确定为元同义词库制作错误时,CUI 可能会被停用。
请参阅第 3.3.19 1 至 5 节,其中仅包含自上一版本以来的更改(不包含映射)的文件。
样本记录
C1313903|2004AA|SY|||C0525045|Y|
C1313909|2004AA|RO|||C0476661|Y|
C2732033|2010AA|RO|||C0025942|Y|
3.3.19.7. AUI 移动 (文件 = MRAUI.RRF)
该文件记录了原子唯一标识符 (AUI) 从元词库的一个版本中的概念 (CUI1) 移动到元词库的下一个版本 (VER) 中的概念 (CUI2) 的过程。该文件是历史性的。(表 14)
表 14.
AUI 运动(文件 = MRAUI.RRF)
样本记录
A0000039|C0236824|2004AC|||移动|A0000039|C1411876|Y|
A0000077|C1510447|2007AC|||移动|A0000077|C0003477|Y|
A9460778|C1696703|2009AB|||移动|A9460778|C0023067|Y|
3.3.20. 单词索引(文件 = MRXW_BAQ.RRF、MRXW_DAN.RRF、MRXW_DUT.RRF、MRXW_ENG.RRF、MRXW_FIN.RRF、MRXW_FRE.RRF、MRXW_GER.RRF、MRXW_HEB.RRF、MRXW_HUN.RRF、MRXW_ITA.RRF、MRXW_NOR.RRF、MRXW_POR.RRF、MRXW_RUS.RRF、MRXW_SPA.RRF、MRXW_SWE.RRF)
这些表中的每一行对应着每个独特的 Metathesaurus 字符串(忽略大小写)。所有 Metathesaurus 条目都有单词索引中的条目。这些条目按 ASCII 顺序排序。
Col. | Description |
---|---|
LAT | Abbreviation of language of the string in which the word appears |
WD | Word in lowercase |
CUI | Concept identifier |
LUI | Term identifier |
SUI | String identifier |
上校 | 描述 |
---|---|
拉特 | 单词所在字符串的语言缩写 |
西部数据 | 小写单词 |
崔 | 概念标识符 |
陆 | 术语标识符 |
隋 | 字符串标识符 |
MRXW_ENG.RRF 的样本记录
ENG|贫血|C0002871|L0002871|S0352688|
ENG|贫血|C0002871|L0002871|S0013742|
ENG|障碍|C0002871|L2818006|S3448137|
英语|未指定|C0002871|L0503461|S0589617|
MRXW_FRE.RRF 的样本记录
FRE|ANEMIE|C0002871|L0162748|S0227229|
3.3.21. 规范化词索引(文件 = MRXNW_ENG.RRF)
此表中,每个唯一英语元同义词库字符串中的每个规范化单词都有一行。所有英语元同义词库条目均在规范化单词索引中。元同义词库中没有其他语言的规范化字符串索引。
Col. | Description |
---|---|
LAT | Abbreviation of language of the string in which the word appears (always ENG in this edition of the Metathesaurus) |
NWD | Normalized word in lowercase (described in Section 2.7.2.1) |
CUI | Concept identifier |
LUI | Term identifier |
SUI | String identifier |
上校 | 描述 |
---|---|
拉特 | 单词出现字符串的语言缩写(在此版本的 Metathesaurus 中始终为 ENG) |
新世界时 | 规范化的小写单词(如第 2.7.2.1 节所述) |
崔 | 概念标识符 |
陆 | 术语标识符 |
隋 | 字符串标识符 |
样本记录
ENG|贫血|C0002871|L0002871|S0013742|
ENG|贫血|C0002871|L0002871|S0013787|
ENG|障碍|C0002871|L2818006|S3448137|
英语|未指定|C0002871|L0503461|S0589617|
3.3.22. 规范化字符串索引(文件 = MRXNS_ENG.RRF)
此表中的每一行对应于每个唯一的英语 Metathesaurus 字符串(忽略大小写)中的每个规范化字符串。所有英语 Metathesaurus 条目均在规范化字符串索引中列出。此版本的 Metathesaurus 中没有其他语言的规范化单词索引。
Col. | Description |
---|---|
LAT | Abbreviation of language of the string (always ENG in this edition of the Metathesaurus) |
NSTR | Normalized string in lowercase (described in Section 2.7.3.1) |
CUI | Concept identifier |
LUI | Term identifier |
SUI | String identifier |
上校 | 描述 |
---|---|
拉特 | 字符串语言的缩写(在此版本的 Metathesaurus 中始终为 ENG) |
国家标准与试验研究所 | 规范化的小写字符串(如第 2.7.3.1 节所述) |
崔 | 概念标识符 |
陆 | 术语标识符 |
隋 | 字符串标识符 |
样本记录
ENG|贫血症|C0002871|L2822821|S3436848|
ENG|贫血未指定|C0002871|L0503461|S0589617|
ENG|贫血|C0002871|L0002871|S0013742|
4 元同义词库 - 原始发布格式 (ORF)
最后更新:2021 年 8 月 20 日。
预计阅读时间:18 分钟