【2023】《A New Semantic Similarity Scheme for more Accurate Identification in Medical Data》-CSDN博客

本文链接：https://blog.csdn.net/Kakaxiii/article/details/141905813

来源： 2023 IEEE 国际智慧城市会议（ISC2）

摘要：

本文旨在设计一种新的度量方法，用于衡量从历史医疗记录中检索到的个人文本信息之间的相似性，以纠正由于编码不良和数据遗漏而引入的错误。
提出的名为语义相似性方案（SSIM）的分层算法的关键动机是创建一致、完整和准确的数据集，该数据集可作为医疗背景下个人识别和认证的基础，且不损害医学伦理或安全。
使用来自英国、美国、加拿大和澳大利亚的四个样本数据集进行评估，结果表明 SSIM 与其他相似性度量方法（如 Jaccard 指数、Sorensen - Dice 和余弦相似性）相比具有优势，尤其是在使用昵称、缩写和同义词确定相似性时。

关键词：文本相似性；语义相似性；医疗数据；医疗记录

一、引言

信息检索通常基于词汇匹配，但现代需求表明纯词汇方法不足以确定相似性，需要考虑原始数据的上下文和含义。
文本指标已在不同科学领域得到应用，有许多字符串匹配算法，如 Levenshten 距离、Hamming Distance、Q - gram 相似性、余弦相似性和骰子系数等。

二、背景和相关工作

字符串比较的方法很多，本文关注个人医疗数据中的常见特征，使用标准测量尺度表示文本信息的相似程度。
许多现有算法和技术试图测量两个字符串或字符串片段之间的相似程度，但它们往往测量物理相似性而非语义相似性。
介绍了基于令牌的方法，包括 Jaccard 指数和 Sorensen - Dice 等常见算法。

三、提出的语义相似性算法

SSIM 算法由一组比较技术组成，计算加权值表示两个文本对象之间的相似程度，范围从 0（无相似性）到 1.0（完全匹配）。
SSIM 考虑了医疗专业人员描述患者症状的方式，包括词语或短语的换位、缩写和同义词的使用等因素。
SSIM 通过从具体到一般的比较来确定相似性，包括字符串片段匹配、使用公共领域昵称表、比较缩写和初始等。
讨论了 SSIM 使用的各种相似性技术，包括文本数据的分段、数据集敏感性、昵称、缩写和同义词等。

四、性能评估

使用 4 个样本地址数据集评估 SSIM 的性能，并与 Jaccard Index（JI）、Sorensen Dice（SD）和 Cosine Similarity（CS）进行比较。
介绍了实现概述，包括将字符串分解为片段、使用映射表寻找相似意义的单词或短语等。
测试策略包括比较测试记录与模拟不完整记录数据集的准确性和结果分布，考虑了基线测试、大小写、换位和关联等测试类别。
分析结果表明，JI、SD 和 CS 在比较文本意义时存在缺陷，而 SSIM 在依赖确定文本含义的类别（如使用昵称、缩写和同义词的关联类别）中产生了更高的相似性度量。

五、结论

本文提出的算法可用于确定医疗设施中人员的身份，在引入缩写、昵称和同义词等细微差异时表现优于其他基线算法。
该工作为盲目内容匹配提供了一种替代方法，通过对数据使用一定程度的域敏感意义。测试结果表明，该算法在与意义相关的测试中表现略好于基线测试。

六、思考

问题

传统的信息检索基于词汇匹配，缺乏对上下文和语义相似性的考虑，无法准确确定文本的相似性，尤其是在医疗数据中，编码不良和数据遗漏可能导致错误。

医学专业人员以相似但不一定相同的方式描述患者的症状。一些术语和短语无论转录者如何都持续存在，而差异则受到环境、社会和历史因素的影响，而不仅仅是医学差异。实际上，这些因素将是单词或短语的换位（图1），由于空间或时间有限而导致的术语缩写，以及某些单词或短语的同义词的使用。

挑战

采用定性或定量的文本比较方法都存在挑战，需要在上下文和可比性之间找到适当的平衡。

- 现有算法大多测量物理相似性而非语义相似性，难以满足现代需求。

- 确定文本相似性时，需要考虑昵称、缩写和同义词等因素，以及词语或短语的换位、因空间或时间限制导致的缩写等实际情况。

创新点

提出了语义相似性方案（SSIM）算法，该算法考虑了医疗文本中的多种因素，如词语或短语的换位、缩写和同义词的使用等，使用加权尺度来影响这些因素的重要性及其对整体相似性度量的贡献。 - SSIM算法采用分层方法，从具体到一般进行比较，包括字符串片段匹配、使用公共领域昵称表、比较缩写和初始等，提高了相似性度量的准确性。

贡献

- 提供了一种新的相似性度量算法，可用于医疗数据中个人文本信息的相似性衡量，有助于纠正编码和数据遗漏导致的错误。

- SSIM算法在处理昵称、缩写和同义词等方面表现出优势，与其他相似性度量方法相比，在特定情况下能更准确地确定文本相似性。

- 为医疗数据的识别和认证提供了一种新的基础，有助于在不损害医学伦理和安全的前提下，提高医疗数据的准确性和可用性。

提出的方法

SSIM算法概述

由一组比较技术组成，计算加权值表示两个文本对象之间的相似程度，范围从0（无相似性）到1.0（完全匹配）。通过从具体到一般的比较来确定相似性，包括字符串片段匹配、使用公共领域昵称表、比较缩写和初始等。

从具体到一般的比较：
- 字符串片段匹配：将每个字符串基于空白字符位置分解为字符串片段（通常是单词），并比较这些片段以确定相似性。比较时考虑以下规则：
  - 相同相对位置的片段具有完全相同的内容。
  - 源字符串中的片段存在于另一个字符串中，但在不同的相对位置。
  - 源字符串中的片段与另一个字符串中相同相对位置的片段有部分匹配。
  - 源字符串中的片段与另一个字符串中不同相对位置的片段有部分匹配。
  - 源字符串中的片段不存在于另一个字符串中。
  - 源字符串中的一些字符与另一个字符串中的字符匹配。
- 使用公共领域昵称表：对于在第二个字符串中没有任何形式匹配的字符串片段，SSIM 使用公共领域昵称表作为比较片段（即名称）的次要手段。如果一个字符串中的名称可以与另一个字符串中的合适昵称匹配，则确定为加权部分匹配。
- 比较缩写和初始：对于仍然无法匹配的片段，SSIM 使用以下自上而下的规则比较初始：
  - 能否将字符串片段与另一个字符串中的匹配初始片段匹配。
  - 能否将字符串片段与另一个字符串中的不正确初始片段匹配。
- 考虑字母分组特征：如果应用所有这些技术后仍有片段未匹配，则默认考虑字母分组特征，以尝试找到不太明显的相似程度。
加权值和相似性度量：
- 每个操作都会产生一个在 0（无相似性）到 1.0（完全匹配）之间的归一化范围内的度量，从中计算出整体平均相似性度量。
- 具有最相似含义的片段按优先级加权，最高权重强调相似程度。
- 在所有情况下完全匹配的字符串将产生加权值 1.0，而没有匹配特征的字符串得分为零。
- 仅基于片段排序的两个字符串的相似性度量为，还可以通过考虑缩写、标点和初始作为次要度量来进一步改进。

综上所述，SSIM 算法的分层方法通过逐步考虑不同层次的因素，从具体的字符串片段匹配到使用昵称、缩写和初始的比较，再到字母分组特征的考虑，以及加权值的应用，来确定两个文本之间的相似性。

- **具体技术**：

- **分段文本数据**：将字符串分解为组件（短语或段）进行预处理，通过考虑相同token的相对位置和相似名称或单词的存在来测量相似性，为每个片段创建加权值，并根据最长匹配短语和精确匹配的长度和相对位置设置加权映射表。

- **数据集敏感性**：采用分层/分级方法，根据源数据集中特征的相对重要性进行处理，可扩展以添加新特征，通过试验和错误调整权重以适应特定数据集。

- **昵称处理**：使用来自公共数据库的已知昵称列表，通过递归替换源字符串中的每个元素为映射的昵称来找到最强匹配。

- **缩写和同义词处理**：初始是昵称或缩写的风格化版本，可使用与昵称和标点简化相同的简化技术，使用alias函数定义字符串与候选同义词的映射关系，形成循环阿贝尔群。

**结论**： - SSIM算法在引入缩写、昵称和同义词等细微差异时表现优于其他基线算法，可作为医疗设施中确定人员身份的基础。 - 该算法通过对数据使用一定程度的域敏感意义，为盲目内容匹配提供了一种替代方法，在与意义相关的测试中表现略好于基线测试。

**剩余挑战和未来工作**： - 为了更准确地比较不同地区的医疗数据，需要拓宽昵称、缩写和同义词的存储库，以包括更多地理上多样化的单词和短语，但这可能会对性能产生负面影响，因为潜在匹配数量可能会大幅增加，特别是当提取的令牌集大小特别大时。 - 未来可以进一步优化算法的性能和准确性，以更好地适应医疗数据的特点和需求。

举例

假设我们有两个字符串：“John Smith” 和 “J. Smith”。

SSIM 算法会按照以下步骤进行处理：

首先，将字符串分解为片段。在这里，“John Smith” 被分解为 “John” 和 “Smith” 两个片段，“J. Smith” 被分解为 “J.” 和 “Smith” 两个片段。
然后，开始比较这些片段。
- 对于 “John” 和 “J.”，它们在位置和内容上都不匹配。
- 对于 “Smith” 和 “Smith”，它们在位置和内容上完全匹配。
接下来，考虑昵称。假设我们的公共领域昵称表中规定 “John” 的昵称可以是 “J.”，那么在这里就找到了一个匹配。
再考虑缩写和初始。“J.” 可以看作是 “John” 的一种缩写形式，符合初始的比较规则。
最后，综合考虑这些因素，SSIM 算法会得出这两个字符串具有一定相似性的结论。

通过这个例子可以看出，SSIM 算法综合考虑了字符串的片段匹配、昵称、缩写和初始等因素，来确定两个文本之间的相似性。

使用的数据集： 文章使用了4个免费开源的逗号分隔的平面文本文件，包含500个来自英国、美国、加拿大和澳大利亚的名字和地址。虽然重点是英国的数据源，但其他三个国家的数据集也被用作比较，因为它们的格式和本地化缩写略有不同。

权重的确定： 权重是通过试验和错误进行调整的，并非人为确定。为了获得文章中公布结果所使用的权重，是根据特定的数据集通过试验和错误进行调整的。而对于其他数据集，可能需要调整权重以适应实际情况。

总体思想：拆分、组合已有方法、映射（通过已有数据集查询）、加权。