Generalized Zero-Shot Text Classification for ICD Coding

糯米~团子

于 2023-11-28 21:30:47 发布

阅读量1k

点赞数 19

分类专栏：未知故障文章标签：深度学习人工智能算法

本文链接：https://blog.csdn.net/Goodlick/article/details/134648854

版权

未知故障专栏收录该内容

17 篇文章 10 订阅

订阅专栏

文章目录

Preface
Method
Experiment results

Preface

自动ICD（国际疾病分类）编码：多标签文本分类问题，具有嘈杂的临床文档输入和长尾标签分布。
在这里插入图片描述
提出方法：基于代码描述的对抗性生成模型（AGM-HT）
包含：一个生成器（generator），基于ICD代码描述，合成特定于代码的潜在特征。一个鉴别器（discriminator），检验生成特征的真实性。
对于零样本学习而言，鉴别器从ICD层次结构中最近同属的（sibling）数据中，将生成的特征和真实的特征区分开。生成的特征进一步用于重构输入文档中的关键字，以保留语义。

贡献：

第一个提出用于多标签文本分类的GZSL生成模型
AGM-HT利用ICD代码的分层结构，在没有任何标记数据的情况下为零样本代码生成语义上有意义的特征。
AGM-HT具有一种新的伪循环生成架构，通过重构输入文档中的相关关键字来保证合成特征和真实特征之间的语义一致性。

Method

问题描述

设定 $\mathbb{L}, L=|\mathbb{L}|$ 是所有ICD代码的集合，给定一个输入文本，目标是预测所有 $y_l\in \{0,1\}, l\in \mathbb{L}$ 。每个ICD代码都有一个简短的文本描述。
所有ICD代码上也有一个已知的层次树结构：对于表示ICD代码的节点，该节点的子节点表示该ICD代码的子类型。
目标：准确预测从未被分配给任何训练文本的 $Code\ l$ 。

特征提取

零样本注意图卷积网络（ZAGRNN），采用标签分配感知的边际损失。
在这里插入图片描述
ZAGRNN作为特征提取器。ZAGRNN提取标签级（label-wise）特征，并使用GRNN为每个ICD代码构建嵌入结构。ZAGRNN基于图标签嵌入与标签特定特征之间的点积，对每个代码进行二进制预测。

$X=[w_1,...,w_n]$ ：输入临床文档，包含 $n$ 个嵌入词向量。 $v_l$ 表示第 $l$ 个ICD代码的文本描述。用1D-CNN组合相邻词嵌入以获得 $n - g r am$ 文本特征 $H=conv(X)\in \mathbb{R}^{N\times d_c}$ 。通过以下公式计算标签 $l$ 的标签关注特征 $a_l∈\mathbb{R}^d$ ：
在这里插入图片描述
$s_l$ 表示 $H$ 中所有行的注意力得分。
直观地说， $a_l$ 通过使用注意力来提取 $H$ 中关于代码 $l$ 的最相关的信息。这样的话，每个输入对于每个ICD代码总共有 $L$ 个注意特征向量。

多标签分类

对于代码 $l$ ，二进制预测结果为 $\hat y_l$ :
在这里插入图片描述
用GRNN编码分类器 $g_l$ .
令 $\mathcal{V}$ 代表ICD树层结构中与 $l$ 相邻的代码集。 $t$ 代表传播图的次数，分类器 $g_l=g_l^t$ ：

其中， $g_l^0=v_l$ ，GRU是门控循环单位。损失函数：

采用标签分布感知边际（LDAM）解决ICD中标签不均衡的问题。
在这里插入图片描述
$1 ()$ 在 $y_l=1$ 时输出1， $\Delta_l=\frac{C}{n_l^{0.25}}$ ， $C$ 是常数， $n_l$ 为标签为 $l$ 的训练样本数。LDAM的损涵为： $\mathcal{L}_{LDAM}=\mathcal{L}_{BCE}(y,\hat y^m)$ 。

零样本潜在特征生成

在零样本中，所有的训练数据 $l$ 标签都为 $y_l=0$ 。用带梯度惩罚的WGAN（WGAN-GP）生成基于代码文本描述的特定代码的潜在特征。

使用标签编码器函数 $C:\mathbb{L}\rightarrow\mathbb{C}$ ，将代码描述映射到一个低维向量 $c,c_l=C(l)$ 。
使用生成器 $G:\mathbb{Z}\times\mathbb{C}\rightarrow\mathbb{F}$ ，去一个随机高斯噪声向量 $z\in \mathbb{Z}$ 和一个编码向量 $c\in\mathbb{C}$ 生成一个潜在特征 $\tilde f_l=G(z,c)$ 。
鉴别器 $D:\mathbb{F}\times\mathbb{C}\rightarrow\mathbb{R}$ 。WGAN-GP的损涵：
在这里插入图片描述
其中， $(\cdot,c) \sim P_\mathbb{S}^{\cdot,c}$ 代表已知代码标签集 $\mathbb{S}$ 中潜在特征和编码标签向量的联合分布。 $\^f=\alpha\cdot f+(1-\alpha)\cdot\~f,\alpha\sim\mathcal{U}(0,1)$ ， $\lambda$ 是梯度惩罚系数。WGAN-GP可以通过解决极大极小值问题来学习： $min_Gmax_D\mathcal{L}_{WGAN}$ 。

标签编码器 $C$

对于代码 $l$ ，使用 LSTM 将描述中的 $M$ 词序列编码成隐藏层状态序列 $e_1,...,e_M]$ 。
然后对隐藏层状态序列做维度最大池化得到一个固定大小的编码向量 $e_l$ .
最后，连接 $e_l$ 和 $g_l$ 得到最终嵌入 $c_l=e_l||g_l$ 。 $g_l$ 是由图编码网络产生的l的嵌入。
$c_l$ 包含描述的潜在语义（在 $e_l$ 中）以及ICD层次结构信息（在 $g_l$ 中）。

关键词重构损函

代码 $l$ ，生成特征向量 $f_l$ 。
对于每个用代码 $l$ 标记的输入文本 $x$ ，提取标签特定的关键词集 $K_l={w_1,...w_k}$ 作为 $x$ 到 $l$ 最相似的词集。相似度由 $x$ 中的词嵌入和标签嵌入的余弦相似度来度量。
设定 $Q$ 为投影矩阵， $\mathcal{K}$ 为输入的所有关键词集， $\pi(\cdot,\cdot)$ 表示余弦相似度函数，重构关键词的损函：
在这里插入图片描述

使用ICD层次结构判别零样本码

从零样本码 $l$ 的最近码 $l^{sib}$ 的真实数据中提取的潜在特征（ $f^{sib}$ ），来训练鉴别器。
换种说法，令 $c^{sib}=C(l^{sib})$ ，对WGZN训练零样本码做如下修改：
在这里插入图片描述
其中， $c\sim P_\mathbb{U}^c$ 是零样本码集 $\mathbb{U}$ 编码标签向量的分布， $(\cdot,c)\sim P_\mathbb{U}^{\cdot,c}$ 代表未知码标签集 $\mathbb{U}$ 中潜在特征和编码标签向量的联合分布。损失项由余弦相似度 $\pi(c,c^{sib})$ 加权。整体学习目标为：
在这里插入图片描述
其中， $β$ 为关键字重构损失的平衡系数。