临床数据与现实场景

数据科学和人工智能兴趣组

已于 2024-08-09 15:51:52 修改

阅读量949

点赞数 17

分类专栏：（免费）临床数据科学文章标签：人工智能

于 2024-06-13 12:44:28 首次发布

本文链接：https://blog.csdn.net/2301_79425796/article/details/139650960

版权

（免费）临床数据科学专栏收录该内容

20 篇文章 0 订阅

订阅专栏

数据（Data）

数据是指用于描述事物、事件或概念的符号、文字、图像等形式的信息。它们是经过观察、测量或记录而得到的，能够表示特定的事实或属性。数据可以是定量的，如数字和统计值，也可以是定性的，如描述性的文字和图片。数据在信息系统中通常以结构化或非结构化的形式存在，通过处理和分析，可以提取有价值的信息和知识，从而支持决策和行动。

数据类型	特点	示例
结构化数据	- 格式化<br>- 易于查询<br>- 高效存储	- 关系数据库（如MySQL、PostgreSQL、Oracle）<br>- 表格数据（如Excel表格、CSV文件）
半结构化数据	- 灵活性<br>- 自描述性<br>- 适应性强	- XML（可扩展标记语言）<br>- JSON（JavaScript对象表示法）
非结构化数据	- 无固定结构<br>- 处理复杂<br>- 丰富的信息	- 文本数据（如电子邮件、社交媒体帖子、文档）<br>- 多媒体数据（如图片、音频、视频）
静态数据	- 不变性<br>- 存档性<br>- 易于管理	- 历史记录（如过去的财务报表、历史销售数据）<br>- 参考文档（如标准规范、法律文件）
动态数据	- 实时性<br>- 高频度<br>- 复杂性	- 实时数据流（如传感器数据、股票市场数据）<br>- 用户行为数据（如网站点击流数据、用户交互记录）

大多数人对“数据”这个词都有一种大概的理解，但明确数据是什么及其代表的意义是很有帮助的。我们可以把数据看作信息系统中的一种抽象形式，它们通常代表现实中的某些事物或类事物。数据通信和互操作性的关键在于“指示”这个概念，它来自符号学的基本思想。举个例子，假设一个通用资源标识符（URI）URIp 指代某个人 P。这意味着 URIp（作为数据项）和 P（作为实际的人）是不同的。如果一个代理 X 使用 URIp 向代理 Y 传递信息，后者需要通过附加的足够信息来明确识别这个人 P，确保双方都指向同一个人 P。换句话说，URIp 是一种用来传递和识别特定人物 P 的数据标识，但它本身并不是这个人，只是代表这个人的符号。通过这种方式，不同系统和代理可以确保他们在谈论同一个对象。

为了进一步处理这些数据，我们需要具备相关的知识：这个人 P 在现实中可能具有什么其他属性，以及我们可以从这些数据中推断出什么。因此，知识需要与对现实的共享标准表示相关，这样才能对描述某一领域对象的数据进行共同解释。

在自然科学和工程学（包括医疗保健和生物医学研究）中，对于物理现实的这种共识通常是无争议的。这种共识确保了数据在不同系统和领域之间的互操作性和准确性，使得研究人员和专业人员能够更有效地共享和理解数据。

在临床研究中，为了确保所有研究人员能够正确理解和使用这些数据，必须遵循统一的标准。例如，病史的记录应该使用统一的医学术语，而药物反应的描述也应按照预定义的分类进行。这就要求研究团队有一个共享的知识基础，理解和使用相同的术语和数据格式。如果研究人员 A 记录了患者 X 的药物反应为“轻微头痛”，而研究人员 B 记录为“头痛”，那么在数据分析阶段可能会出现不一致。为了避免这种情况，需要有明确的标准来定义和分类药物反应，使得“轻微头痛”和“头痛”在数据分析中能被统一识别和处理。通过这种方式，临床研究团队可以确保所有数据都被准确地记录、传递和解释，从而提高研究的可靠性和结果的可信度。

临床数据（Clinical Data）

临床数据是指患者及其相关的各种信息，如抱怨、症状、疾病、手术、药物、实验室值等。这些数据记录在不同类型的信息系统中，包括电子健康记录（EHR）、疾病登记、临床试验文档和死亡率数据库等。由于记录方式和内容的多样性，这些数据通常是异质的、上下文相关的，往往不完整，有时甚至是不正确的。

临床数据的收集目的与形式

临床数据的收集通常是为了满足特定的需求，如报告、沟通和结算。根据具体的需求，数据的形式和细节也会有所不同。例如，当需要进行统计分析或基于案例的报销时，数据必须是结构化的。这种结构化的数据有助于标准化处理和分析，但在范围和细粒度方面需要权衡。

然而，在医疗专业人员之间的沟通至关重要的情况下，非结构化的叙述往往比结构化和编码数据更占优势。这是因为文本通常更详细且生成更快。文本只需被人类理解，共享词汇和字符集的使用已足够，语法和拼写的变化和错误容忍度较高。

自由文本的语义互操作性

自由文本在临床数据中占有重要地位，但它的语义互操作性仅在双方使用相同的词义和上下文时才能实现。例如，“体格检查正常”这一结论只有在由神经科医生记录时才能得出所有主要神经反射均正常，而不是在全科医生的记录中。这种语义上的差异使得自由文本在跨学科和跨系统的沟通中存在挑战。

临床数据标准及FAIR原则

无论是针对临床数据的初级使用还是二次使用场景，我们都提倡FAIR原则，这意味着临床数据必须遵循共享标准。FAIR原则代表“Findability”（可查找性）、“Accessibility”（可访问性）、“Interoperability”（互操作性）和“Reusability”（可重用性）。

FAIR原则是关于科学数据管理和治理的一组指导原则，其目的是提高数据的可查找性、可访问性、互操作性和可重用性。FAIR是“Findable, Accessible, Interoperable, Reusable”的缩写。以下是对FAIR原则的详细解释：

FAIR原则的解释

原则	解释
Findable（可查找性）	数据应该易于找到。包括对数据进行适当的描述和索引，使得用户能够通过标准化的元数据和标识符（如DOI）找到数据。
Accessible（可访问性）	数据应该是可获取的。当获得适当的权限后，用户应该能够访问数据。还应明确数据的访问条件和权限。
Interoperable（互操作性）	数据应该能够与其他数据进行集成和互操作。数据应使用标准格式、词汇和协议，以便不同系统之间可以交换和使用数据。
Reusable（可重用性）	数据应该能够被重复使用和再利用。应提供详细的描述和适当的许可证，使用户能够在不同的背景下重复使用数据。

FAIR原则的详细说明

可查找性（Findable）:
- 元数据和数据有全球唯一标识符: 数据和其相关的元数据应具有唯一且持久的标识符（如DOI，数字对象标识符）。
- 丰富的元数据描述: 数据应附有详细的元数据描述，使其能够被有效地查找和引用。
- 被搜索引擎索引: 数据和元数据应能被搜索引擎索引，以便用户可以通过互联网搜索到。
可访问性（Accessible）:
- 明确的访问协议: 数据应通过标准化的协议（如HTTP或FTP）进行访问，并清楚地定义数据的获取过程。
- 访问权限说明: 数据应附有关于谁可以访问数据以及如何访问数据的明确说明。
互操作性（Interoperable）:
- 使用标准化的格式和语言: 数据应使用标准化的格式（如CSV、JSON）和描述语言（如XML、RDF）。
- 共享词汇和本体: 数据应使用标准化的词汇和本体，以便不同的数据集之间可以互相理解和整合。
可重用性（Reusable）:
- 清晰的数据许可证: 数据应附有清晰的使用许可协议，说明在什么条件下数据可以被再利用。
- 详细的数据描述: 数据应有足够的元数据和文档，详细描述数据的来源、方法和质量，以便其他用户可以在不同的背景下重新使用。

应用FAIR原则的意义

应用FAIR原则对于科学数据管理和共享具有重要意义：

促进数据共享和重复使用：通过提高数据的可查找性、可访问性、互操作性和可重用性，研究人员可以更容易地找到、获取和使用他人的数据，从而促进科学合作和创新。
提高研究效率和透明度：数据管理的标准化和规范化使研究过程更加透明和高效，有助于验证研究结果和发现新的科学洞见。
增强数据的长期价值：通过遵循FAIR原则，数据的价值可以在更长时间内保持和发挥，支持持续的研究和应用。

其它的数据要素解释

标准要素	解释
数据来源	数据的起源者、创建时间和相关过程。这确保了数据的可追溯性和可靠性。
信息模板	数据所嵌入的信息框架或结构，使数据具有一致的格式，便于存储和分析。
词汇/术语/本体	用于赋予数据意义的标准化词汇、术语或本体，确保不同数据集之间的一致性和可理解性。
语义描述符或表示单位	用于描述数据内容的代码或标签，如ICD-10代码，用于统一疾病和诊断的描述。
形式或文本定义	这些表示单位的精确定义，确保所有使用这些单位的人对其含义有一致的理解。
形式语言	用于上述内容的标准化语言，如OWL（Web本体语言）或RDF（资源描述框架），以支持数据的互操作性和机器可读性。

在临床研究中，FAIR原则确保所有数据都被准确地记录、传递和解释，提高研究的可靠性和结果的可信度。以下是如何在临床研究中应用这些标准的例子：

标准要素	解释与应用
数据来源	研究团队记录每个患者数据的来源，如哪位医生、护士或研究人员输入的数据，数据录入的时间和流程。
信息模板	使用统一的模板记录患者信息，如标准的电子健康记录（EHR）模板，包含姓名、年龄、性别、病史等字段。
词汇/术语/本体	使用医学术语如ICD-10编码来描述疾病和诊断，确保所有记录一致，如所有研究人员都使用“E11.9”编码记录2型糖尿病。
语义描述符或表示单位	每个数据项如药物反应都使用标准代码和标签进行记录，如药物反应用“头痛”标签和特定代码进行标识。
形式或文本定义	对所有使用的标签和代码提供明确的定义，如“头痛”代码的定义包括其症状描述和严重程度分类。
形式语言	使用标准化的形式语言如OWL或RDF记录和交换数据，确保不同系统之间的数据可以互操作和共享。

通过应用这些标准，临床研究团队可以确保所有参与者都能够理解和使用相同的数据，提高数据的共享和重复使用效率，从而更有效地进行数据分析和科学研究。

临床数据标准化

在医疗数据标准化领域，术语学、句法学、语义学和语用学等概念被引入，用以描述临床数据的不同方面及相应的标准类型。这些概念借鉴自自然语言和人工语言研究，在数据标准化的应用中体现出类似的原则。

首先，参考术语是医疗数据标准化中的重要组成部分，它包括来自自然语言的标准化术语和编码系统中的抽象符号。这些符号必须是唯一的，并遵循Web标准，如国际资源标识符（IRI）或统一资源标识符（URI）。标准化术语应当具有人类可理解、唯一、自说明和非歧义的特点，最好包含形式或文本上的定义。举例来说，SNOMED CT中的完全指定名称“Primary malignant neoplasm of lung (disorder)”，其语义等同标识符SCTID:93880001，以及对应的URI和本体描述，表明它等同于肺部结构中的原发性肿瘤形态。然而，在医学文本中较难找到“primary malignant neoplasm of lung”这样的术语，医生更倾向于使用类似“lung cancer”、“lung carcinoma”、“Bronchialkarzinom”、“Cáncer de pulmón”等简洁术语。因此，实际应用中，参考术语需要与接口术语库关联，后者收集了临床和科学实践中使用的语言表达。

SNOMED CT

SNOMED CT（Systematized Nomenclature of Medicine Clinical Terms）是一种全球通用的临床术语和编码系统，用于标准化和描述医学和临床概念。它被设计用来支持临床信息的记录、交流和分析，涵盖了广泛的医学领域，包括疾病、手术、药物、实验室测试等。

SNOMED CT 的主要特点包括：

全面性和详细性：覆盖广泛的临床概念，并提供详细的描述和分类。
标准化：所有术语都有唯一的标识符（SCTID），遵循国际标准和Web标准（如IRI和URI）。
多语言支持：支持多种语言的术语和描述，促进全球间的医学信息交流和理解。
本体基础：基于本体论的设计，使得术语之间的关系和语义更加清晰和可理解。
可扩展性：可以根据不同国家、机构或特定需求进行定制和扩展，以适应不同的医疗实践和信息管理需求。

SNOMED CT 的使用有助于提高医疗信息的一致性和互操作性，支持临床决策支持系统、医疗记录系统、统计分析以及医学研究的进行。它被许多国家和地区广泛采用，作为推动电子健康记录（EHR）和健康信息交换的关键工具之一。

其次，句法规则在数据标准中定义了术语组合的结构和过程。例如，解剖实体和临床发现的标准需要指定如何结合左右侧术语，以及实验室结果标准需要定义如何结合分析物、数值和单位。高级基于本体的术语标准（如SNOMED CT）提供了术语组合的规则集。

第三，语义学关注符号与现实中所代表的内容之间的关系。在这里，需要注意不同标签可能指代不同的实体，特别是在类似标签的情况下。例如，关于动脉血压的信息模型标准化了记录动脉血压时要填写的数据结构，而动脉血压的本体条目则提供了血压是什么的定义，即一种动脉结构中的压力物理测量。

语用学关注的是符号在特定情境下的使用和解释。在医疗术语的背景下，这意味着同样的术语可能在不同的语境中有着不同的含义和应用。举例来说，考虑以下几种表达方式关于哮喘的描述：

“疑似哮喘”：这种表达暗示了医生对患者可能患有哮喘的怀疑，但尚未做出确诊。
“哮喘预防”：这指的是预防哮喘发作的措施或治疗方法，与实际的哮喘病例无直接关联。
“检查哮喘”：这表示进行哮喘相关的检查或评估，可能用于诊断或监测哮喘患者的病情。
“严重哮喘”：这指的是哮喘发作严重程度较高的情况，需要紧急治疗或干预。

在这些例子中，虽然术语“哮喘”出现在每个表达中，但它们的含义和使用情境却截然不同。只有在明确的情境下，如“严重哮喘”，我们才能安全地假设确实存在哮喘的患者实例，并且这些信息可以安全地用于计算机辅助决策支持系统中，比如用于推荐紧急治疗方案或监测哮喘患者的病情变化。

因此，语用学的考量使我们能够理解和区分不同语境下同一术语的真实含义，从而确保在医疗信息管理和临床实践中，术语的使用具有准确性、清晰性和适用性。

医疗数据标准化是现代医疗信息管理中至关重要的一环。它涉及综合运用术语学、句法学、语义学和语用学的原则，以确保医疗数据的准确性、一致性和有效性。这些标准不仅仅是简单的数据描述，而是构建医疗信息管理系统和决策支持系统的基础。通过统一的术语学标准，医疗领域能够确保在全球范围内使用一致的术语和定义，从而消除语言和文化差异可能带来的误解。句法学则规定了数据元素如何组合和交互，保证了数据在不同系统间的可互操作性和相容性。语义学帮助精确定义每个术语的含义和关系，避免歧义和误解，确保数据的正确解释和应用。而语用学考虑了数据使用的实际情境和背景，确保数据在不同应用场景下的合理有效性。同时通过建立和遵循这些标准，医疗机构能够实现跨系统的数据集成和互操作性，不仅提高了医疗服务的质量和效率，还加强了临床实践和科学研究的基础。医生和研究人员可以更快速、准确地获取和分析数据，从而为患者提供个性化、安全和有效的护理和治疗方案。