UMLS(统一医学语言系统)—— 小白最强攻略(讲解+运用)

1概念介绍

1.1 UMLS介绍

UMLS (Unified Medical Language System),是由美国国立医学图书馆(NLM)开发的,旨在通过整合各种生物医学术语系统来促进医学信息的统一检索和应用。

链接:https://uts.nlm.nih.gov/uts/signUp

UMLS参考手册:https://www.ncbi.nlm.nih.gov/books/NBK9676/

技术上:

Unified Medical Language System(UMLS)由美国国家医学图书馆(NLM)开发,旨在通过创建和维护一个整合医学术语的知识库,来支持和促进生物医学信息的检索和应用。UMLS的核心组件包括Metathesaurus、Semantic Network和SPECIALIST Lexicon。

1、Metathesaurus
**角色:**Metathesaurus是UMLS的核心,它汇集和标准化了来自多个术语表和分类系统的术语,提供术语之间的映射和联系。
1.1 组成:

术语来源
包括从不同来源收集的术语,如医学主题词表(MeSH)、SNOMED CT、ICD(国际疾病分类)、RxNorm 等。每个术语来源都有自己的结构和术语集。
概念统一标识符(CUI)
将不同术语表中的同义词组(synonyms)聚合成一个概念,并分配唯一的标识符。这样,来自不同来源的术语可以被视为相同的概念。
术语变体
包括术语的不同形式,如缩写、同义词和拼写变体,使得同一概念可以通过不同的表达方式进行检索。

1.2 功能:
术语标准化
通过整合多种术语表和分类系统,提供一个统一的术语数据库,方便用户进行跨系统的术语查询和映射。
将不同来源的术语整合在一起,形成一个统一的数据库。
术语映射
提供术语表之间的映射,支持术语转换和数据整合。例如,将 SNOMED CT 术语映射到 ICD-10 代码。
提供同义词和术语之间的映射,帮助在不同术语表之间进行转换和互操作。
知识链接
通过连接不同的术语和概念,帮助用户发现和理解生物医学知识之间的关系。
与其余组件的联系:
Metathesaurus中的每个概念都有一个唯一的概念标识符(CUI),这些概念标识符与Semantic Network和SPECIALIST Lexicon中的信息相关联,为这些组件提供基础数据。

2、Semantic Network
**角色:**Semantic Network定义了概念类型(语义类型)和它们之间的关系,为Metathesaurus中的概念提供语义上下文。
组成:
概念类型(语义类型):
定义了Metathesaurus中概念的类别,如疾病、药物、器官等。每个概念都分配一个或多个语义类型。
关系类型:
定义了概念之间的关系,如“治疗”、“引起”、“部分”等,帮助用户理解概念之间的关联。
功能:
定义关系:
明确不同概念之间的关系,如“治疗”、“引起”、“部分”等。
提供上下文:
过定义语义类型和关系,为Metathesaurus中的概念提供更丰富的语义信息。
与其余组件的联系:
Semantic Network利用Metathesaurus中的概念标识符(CUI)来描述概念之间的关系和语义类型。这些关系帮助在知识图谱中建立复杂的语义连接。

3、SPECIALIST Lexicon
角色: SPECIALIST Lexicon支持自然语言处理(NLP),提供词汇信息和词形变化规则,以便更好地处理和理解文本中的术语。
组成:
词汇表:
包括大量的医学和生物医学术语,以及这些术语的不同形式和变体,如单复数形式、时态变化等。
词形变化规则:
定义了术语的词形变化规则,如动词的时态变化、名词的复数形式等,帮助 NLP 系统正确识别和处理术语。
功能:
术语识别
通过词汇表和词形变化规则,帮助 NLP 系统识别和处理文本中的术语,进行概念匹配和提取。
文本分析
提供支持文本分析和处理的工具,如分词、词性标注、语法解析等,增强 NLP 系统的能力。
与其余组件的联系:
SPECIALIST Lexicon中的词汇和词形变化规则与Metathesaurus中的概念标识符(CUI)关联,帮助在文本处理中正确识别和匹配术语,并利用Semantic Network中的语义关系进行更准确的文本分析。

小结

这三个组件共同构成了一个全面的知识图谱,通过以下方式实现其作用:
1. 数据整合和标准化:Metathesaurus整合和标准化了来自多个术语表的术语,提供一个统一的术语库。
2. 语义连接和上下文:Semantic Network定义了概念之间的关系和语义类型,为Metathesaurus中的术语提供上下文和连接。
3. 文本处理和理解:SPECIALIST Lexicon通过提供词汇信息和词形变化规则,支持NLP系统进行文本处理和理解,并与Metathesaurus和Semantic Network中的数据关联。

举例
  1. Metathesaurus 示例
    案例:糖尿病(Diabetes Mellitus)
  • 概念统一标识符(CUI):C0011847
  • 同义词和术语变体:
    • Diabetes Mellitus
    • 糖尿病
    • DM
    • 高血糖症
  • 来源术语表:
    • MeSH(Medical Subject Headings):D003920
    • SNOMED CT:44054006
    • ICD-10:E10-E14
  • 功能:
    • 将不同术语表中的同义词和相关术语聚合为一个概念,使不同系统和数据库之间能够理解和共享信息。
  1. Semantic Network 示例
    案例:糖尿病(Diabetes Mellitus)相关的语义关系
  • 概念类型(语义类型):疾病或综合征(Disease or Syndrome)
  • 关系类型:
    • 治疗(Treats):胰岛素(Insulin)
      • 语义类型:治疗糖尿病的药物
    • 并发症(Complicates):糖尿病视网膜病变(Diabetic Retinopathy)
      • 语义类型:糖尿病可能引发的并发症
    • 病因(Causes):胰腺功能不全(Pancreatic Dysfunction)
      • 语义类型:糖尿病的可能病因
  • 功能:
    • 提供概念之间的关系和语义上下文,帮助用户理解疾病的复杂性及其相关的医疗知识。
  1. SPECIALIST Lexicon 示例
    案例:处理糖尿病相关的自然语言文本
  • 词汇信息:
    • Diabetes:名词,单数
    • Diabetes Mellitus:名词,单数
    • Diabetic:形容词,描述糖尿病患者的状态
  • 词形变化规则:
    • Diabetes:
      • 单数:Diabetes
      • 复数:Diabetes(不变)
    • Diabetic:
      • 单数:Diabetic
      • 复数:Diabetics
  • 功能:
    • 支持自然语言处理系统识别和处理医学文本中的术语,通过词汇表和词形变化规则进行准确的词汇解析和匹配。

综合实例
案例:使用 UMLS 处理糖尿病相关的医疗记录

  • 步骤 1:术语识别(利用SPECIALIST Lexicon)
    • 在医疗记录中,识别出“Diabetes Mellitus”、“糖尿病”、“DM”等术语。
  • 步骤 2:概念标准化(利用Metathesaurus)
    • 将识别出的术语统一映射到一个CUI(C0011847),确保不同术语表中的数据一致。
  • 步骤 3:语义关联(利用Semantic Network)
    • 识别出糖尿病的相关治疗方法(如胰岛素)、并发症(如糖尿病视网膜病变)和可能病因(如胰腺功能不全)。
    • 建立这些概念之间的关系,帮助医生理解患者的整体健康状况和潜在风险。

功能上:

UMLS 的主要功能包括:
1. 术语标准化:整合和标准化来自不同来源的生物医学术语,提供统一的术语数据库。
2. 术语映射:提供不同术语表之间的映射,支持跨系统的术语转换。
3. 自然语言处理:利用SPECIALIST Lexicon和MetaMap工具,从文本中提取生物医学概念,支持文本分析和信息检索。
4. 信息检索:增强生物医学文献和临床数据的检索功能,通过识别和匹配术语来提高检索精度。

性能上:

UMLS(统一医学语言系统)性能优势
1. 全面性和广泛覆盖
- UMLS包含了多个医学术语和代码系统,如SNOMED CT、RxNorm等,这使其能够提供广泛而全面的医学语义网络。其Metathesaurus包括了来自25种不同语言的概念名称,覆盖了广泛的医学和生物医学领域。
-
2. 语义关系和概念映射
- UMLS提供了丰富的语义关系和概念映射功能,可以有效处理和解释文本,实现术语之间的映射。这对自然语言处理(NLP)和信息检索等应用尤为重要。例如,MetaMap工具可以识别文本中的UMLS概念,并将其映射到标准术语。
-
3. 标准化和互操作性
- UMLS促进了医学术语的标准化和系统间的互操作性。通过提供一致的语义框架和概念模型,UMLS简化了跨不同术语系统的转换和数据集成过程。
-
4. 大规模使用和广泛应用
- UMLS已被广泛应用于各种研究和临床系统中,如PubMed、ClinicalTrials.gov、电子健康记录(EHR)系统等,每年有数百万次的API调用和下载请求。其用户包括研究人员、软件开发人员、医疗保健提供者和教育工作者等,应用领域广泛。

对比:

与其他知识图谱的对比
1. 与SNOMED CT的对比
覆盖范围:SNOMED CT是一个国际公认的临床术语系统,主要用于临床数据记录和交流。而UMLS则包含了SNOMED CT在内的多个术语系统,覆盖范围更广。

语义关系:UMLS不仅提供概念的定义和分类,还包括详细的语义关系和映射功能,使其在处理复杂语义关系时具有优势。

  1. 与MeSH的对比
    应用领域:MeSH(医学主题词表)主要用于生物医学文献的索引和检索,如PubMed数据库。而UMLS不仅用于文献检索,还广泛应用于临床数据处理和NLP任务。

    语义网络:UMLS的Metathesaurus包括了MeSH中的概念,但提供了更为复杂和详细的语义网络,可以实现更丰富的语义分析和概念映射。

  2. 与DBpedia的对比
    领域专注:DBpedia是一个通用的知识图谱,涵盖了广泛的领域,但其在医学领域的覆盖和专业性不如UMLS。

    结构和关系:UMLS专注于医学领域,其概念和关系结构更为专业和细致,适用于医学数据的处理和分析。

使用:

要使用和体验UMLS,首先需要注册一个UMLS Metathesaurus License,并获取一个API密钥。以下是具体步骤:
2.1 注册和获取API密钥
- 注册:在UMLS注册页面注册一个账户。
- 申请API密钥:注册后,登录UMLS Terminology Services获取API密钥。
2.2 使用UMLS API
UMLS提供了多个API接口,方便用户访问其数据。UMLS REST API Home Page:
https://documentation.uts.nlm.nih.gov/rest/home.html

语义网络MetamorphoSys本地安装教程:
https://www.nlm.nih.gov/research/umls/implementation_resources/metamorphosys/help.html

使用UMLS API教程:
https://www.nlm.nih.gov/research/umls/user_education/quick_tours/UTS-API/UMLS_REST_API_Authentication_API-Key.mp4

以下是一些常用的API接口及其使用示例:

- Authentication API:用于获取访问令牌。

curl -X POST "https://utslogin.nlm.nih.gov/cas/v1/api-key" \
-H "Content-Type: application/x-www-form-urlencoded" \
-d "apikey=YOUR_API_KEY"
- Metathesaurus API:用于检索医学术语和概念。
curl -X GET "https://uts-ws.nlm.nih.gov/rest/content/current/CUI/C0004238" \
-H "Authorization: Bearer YOUR_ACCESS_TOKEN"
- Semantic Network API:用于获取概念之间的语义关系。
curl -X GET "https://uts-ws.nlm.nih.gov/rest/semantic-network/current/TUI/T116" \
-H "Authorization: Bearer YOUR_ACCESS_TOKEN"

通过MetaMap使用

MetaMap是一个把生物医学文本与UMLS超级词表中的概念匹配起来的程序

MetaMap下载(需要UMLS许可)
https://lhncbc.nlm.nih.gov/ii/tools/MetaMap/run-locally/MainDownload.html

官网上的安装教程:
https://lhncbc.nlm.nih.gov/ii/tools/MetaMap/documentation/Installation.html

使用教程:
MetaMap 将文本(可以是文档、查询)映射(匹配)为来自 UMLS 元叙词的概念。文本通过一系列模块并分解为包括句子、短语、词汇元素和标记的组件。根据结果​​短语生成变体,并根据它们的短语检索和评估来自 UMLS 元叙词的候选概念。由此产生的概念以最好地覆盖文本的方式组织,称为最终映射。

MetaMap 2009 Usage
https://lhncbc.nlm.nih.gov/ii/tools/MetaMap/Docs/MM09_Usage.html

//输入输出文件可以不指定,默认标准输入输出。如果指定的化,必须位于最后两个参数
./bin/metamap [选项] [输入文件] [输出文件]

输入每个句子,分析得出结果。(我原本输入的一个个单词,但MetaMap将它自动认成一个句子。
在这里插入图片描述

相关研究

  1. node-umls-treeify:基于统一医学语言系统 (UMLS) 元叙词的同义词树:
    同义词树(Synonym Tree或Thesaurus)是一种数据结构,它将具有相同或相近含义的词汇组织在一起,形成一个层次化的网络,有助于识别和处理文本中的语义关系。node-umls-treeify库利用UMLS的元叙词集,将这些同义词关系以树形结构呈现,便于开发者进行术语查找、概念匹配和语义分析。
    该库使用JavaScript编写,JavaScript是一种广泛应用于Web开发的脚本语言,尤其在Node.js环境中,它能提供强大的服务器端功能。这意味着node-umls-treeify可以轻松地与前端应用集成,实现全栈式的医学信息处理。

使用node-umls-treeify,开发者可以进行以下操作:

  1. 加载UMLS元叙词:库提供了加载UMLS Metathesaurus数据的功能,这通常包括大量的术语和它们的同义关系。

  2. 构建同义词树:根据加载的数据,库可以构建一个树状结构,其中每个节点代表一个术语,子节点表示与父节点同义的其他术语。

  3. 搜索和导航:通过树结构,可以快速搜索特定术语及其同义词,同时支持遍历和导航整个概念网络。

  4. 语义相似度计算:利用同义词树,可以计算两个术语之间的语义相似度,这对于文本挖掘和信息检索至关重要。

  5. 定制化处理:由于库是开源的,开发者可以根据需求对其进行扩展和定制,例如添加新的功能或优化性能。

node-umls-treeify-master文件名可能表示的是该库的源码主分支或者最新版本,通常包含源代码、文档、示例和测试用例等。为了使用这个库,开发者需要具备一定的JavaScript编程基础,了解Node.js环境,并熟悉如何处理和解析大型数据集。同时,对于UMLS的理解和医学背景知识也是必不可少的,因为这将直接影响到如何有效利用node-umls-treeify进行实际应用开发。

node-umls-treeify为处理和分析UMLS元叙词提供了一种高效且灵活的方式,是生物医学信息学和自然语言处理项目中的有力工具。结合JavaScript的强大力量,它可以帮助开发者在医疗领域构建智能应用程序,提高信息处理的准确性和效率。

https://download.csdn.net/download/weixin_42131342/20188322?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522AC9CDAF0-3BFC-4EBB-BECE-36366CE953E3%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=AC9CDAF0-3BFC-4EBB-BECE-36366CE953E3&biz_id=1&utm_medium=distribute.pc_search_result.none-task-download-2~all~first_rank_ecpm_v1~rank_v31_ecpm-9-20188322-null-null.142^v100^pc_search_result_base4&utm_term=UMLS&spm=1018.2226.3001.4187.10

2. 使用词和图嵌入来衡量统一医学语言系统概念之间的语义相关性

https://blog.csdn.net/LuoMin2523/article/details/118944049?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522FACDCAD7-4413-4A7D-85FD-34ABB6BC9805%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=FACDCAD7-4413-4A7D-85FD-34ABB6BC9805&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~baidu_landing_v2~default-6-118944049-null-null.142^v100^pc_search_result_base4&utm_term=UMLS&spm=1018.2226.3001.4187

3.基于多数据源融合的医疗知识图谱框架构建研究

https://blog.csdn.net/qq_41739364/article/details/137218498?ops_request_misc=&request_id=&biz_id=102&utm_term=UMLS&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-9-137218498.142^v100^pc_search_result_base4&spm=1018.2226.3001.4187

最后,如果大家发现概念都懂了,但是还是没见过UML,不知道如何使用,欢迎关注b站up:啊我有兔子牙,在主页查看相关使用视频哦。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值