创新点
1. 现有的研究并没有利用语篇结构的临床笔记,其实这提供了丰富的上下文信息可用于代码分配
所以本篇论文利用了节类型分类和节类型嵌入的语篇结构
2. 还关注了类别不平衡的问题 以及 临床笔记和ICD代码定义之间的异构写作风格。所提出的协调嵌入方法能够同时处理它们
现状分析
现有的研究忽略了以下三点:
首先,它们忽略了临床文档的语篇结构。
其次,大多数方法没有考虑ICD代码描述与相关临床文档之间的写作风格差异。
第三,大多数方法没有考虑标签空间中的类别不平衡问题。
1、临床文档的语篇结构
临床文档的语篇结构指的是文档中的段落、句子和词语之间的组织和关系。它涉及到文档的逻辑结构、篇章结构以及句子和段落之间的连接方式。
2、ICD代码描述与相关临床文档之间的写作风格差异
ICD代码描述是指用于描述医学诊断和手术过程的国际疾病分类(ICD)代码的文本描述。相关的临床文档是指包含与ICD代码相关的医学记录、病历、报告等文档。
写作风格差异指的是ICD代码描述与相关临床文档之间在语言表达、术语使用、句子结构等方面的差异。由于编写ICD代码描述和撰写临床文档的目的和受众不同,它们可能采用不同的写作风格和表达方式。
3、标签空间中的类别不平衡问题
标签空间中的类别不平衡问题是指在分类任务中,不同类别的训练样本数量存在明显的不平衡情况。具体而言,某些类别的样本数量远远多于其他类别,导致模型在学习和预测过程中偏向于频繁出现的类别。有一些罕见疾病很少出现在临床文档等等数据集中。
考虑到代码描述和标签分布的性质,我们认为,实例稀缺的代码表示应该从代码描述中学习更多,因为代码描述是ICD代码的基本定义。
研究方法
1、DiscNet
Discourse Net利用话语级特征、词级特征和句子级特征来学习多粒度临床文档表示
它利用节类型(Section Type)嵌入来利用话语层面的特征。
1.1、节类型(Section Type)嵌入
临床文档通常包含多个章节,章节标题不标准。我们通过使用正则表达式确定章节标题的位置来将文档划分为节(Section)。
选择出现率最高(93%)的标题作为已知的Section Type
将每个部分内容被转换为TF-IDF向量,然后使用已知的Section Type作为标签来训练朴素贝叶斯分类器
最后,经过训练的朴素贝叶斯模型将每个部分映射到已知的Section Type
1.2、输入层
使用word2vec CBOW 方法在MIMIC-III数据集的训练集上预训练size d = 100的词嵌入
使用预训练的词嵌入将输入词序列映射到嵌入空间中
输入嵌入是 词嵌入 + 节类型嵌入
1.3、多粒度表示
略
2、Reconciled Embedding (RE)
RE即可调和 --> 类别不平衡问题 和 代码定义和相关文档之间的异构性
2.1、消除异构性
见论文详细讲解
2.2、消除类别不平衡
见论文详细讲解
研究结论
本篇论文提出了一种新的ICD自动编码神经网络结构。我们利用节类型嵌入来使我们的模型具有话语意识。我们关注的是类不平衡的问题和代码定义和相关文档之间的异构性。所提出的嵌入式方法同时解决了这两个问题。我们在广泛研究的MIMIC-III数据集上实现了最先进的性能。DiscNet可以应用于所有具有话语结构的文本,但不限于临床文本。所提出的协调嵌入方法可以应用于存在与标签相关联的辅助信息的场景中。