[ClinicalNLP Workshop 2022]PLM-ICD: Automatic ICD Coding with Pretrained Language Models

最新推荐文章于 2025-12-17 17:41:55 发布

原创最新推荐文章于 2025-12-17 17:41:55 发布 · 993 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理 #机器学习 #深度学习 #算法 #神经网络

论文精读专栏收录该内容

229 篇文章

订阅专栏

论文网址：PLM-ICD: Automatic ICD Coding with Pretrained Language Models - ACL Anthology

论文代码：https://github.com/MiuLab/PLM-ICD

2.3.1. Automatic ICD Coding

2.3.2. Pretrained Language Models

2.4. Challenges for PLMs

2.4.1. LongInput Text

2.4.2. Large Label Set

2.4.3. Domain Mismatch

2.5. Proposed Framework

2.5.1. Domain-Specific Pretraining

2.5.2. Segment Pooling

2.5.3. Label-Aware Attention

2.7.1. Ablation Study

2.7.2. Effect of Pretrained Models

2.7.3. Effect of Label Attention Mechanisms

2.7.4. Effect of Long Input Strategies

2.7.5. Effect of Maximum Length

2.7.6. Effect of Optimization Process

2.7.7. Best Practices

2.8. Conclusion

1. 心得

（1）写的很细，Preliminaries写了很多

2. 论文逐段精读

2.1. Abstract

①任务：电子健康记录多标签分类（electronic health records, EHRs)

②现存问题：大标签域、长输入序列、预训练和微调域不匹配问题

③作者提出pretrained language models (PLM)-ICD来解决这些问题

2.2. Introduction

①领域现存问题：EHRs是非常自由的文本；分类ICD编码非常耗费人力；标签域大；数据分布不均

②EHRs分类的意义：追踪健康统计，质量结果和账单（好奇怪的一句话）

③使用预训练模型现存问题：临床文本超过了PLM的最大长度；常规微调在多标签域上的不会带来很好的分类效果；常规语料库预训练大模型和医学的有出入

④模型设计：域特定预训练以解决域不匹配问题；对长输入序列使用分割池化；对大标签集合标签注意

corpora n. 语料库

2.3. Related Work

2.3.1. Automatic ICD Coding

①现有处理EHR的方法：RNN，多过滤器卷积，引入外部知识，注意力机制，树级序列LSTM，增加损失函数，图卷积，LAAT（标签注意力），effectiveCAN，focal loss（对数量多的样本分配更低的权重）

2.3.2. Pretrained Language Models

①通用文本领域训练的大模型：XLNet、RoBERTa

②一些医学文本预训练的大模型：BioBERT，ClinicalBERT，PubMerBERT，和RoBERTa-PM

③X-BERT专门契合多标签任务，有作者对于长序列输入问题提出五个截断和分割策略

④也有模型专门去EHR上预训练，然后用标签注意力AttentionXML

⑤作者自己使用文档级特定标签表征而不是chunk级别的

2.4. Challenges for PLMs

2.4.1. LongInput Text

①为了契合位置编码，通常设有最大序列长度512，但MIMIC III数据集平均有1500个词/2000个token

②作者在LAAT模式中把诊断文本裁剪成512个单词，在BERT模式中把诊断文本裁剪成512个token。作者测试了不同最大长度文本带来的性能：

截断会导致性能下降（挺多的

detrimental adj.有害的，不利的 n.有害的人(或物)；不利条件

2.4.2. Large Label Set

①MIMIC III有8921个标签

②使用[CLS]分类的BERT和使用标签注意力的LAAT性能对比：

显然使用一个特征来进行多分类会导致信息丢失从而性能不佳

2.4.3. Domain Mismatch

①从通用领域训练的大模型需要对应的医学和临床任务下游微调

2.5. Proposed Framework

①假设一个EHR表示为 $\mathbf{d}=\{t_{1},t_{2},\cdots,t_{|d|}\}$ ，其中 $t$ 是token， $\left|d\right|$ 是总token长度

②用EHR最终预测ICD码 $\mathbf{y}\subseteq\mathcal{Y}$ ， $\mathbf{y}\in\{0,1\}^{|\mathcal{Y}|}$

③PLM-ICD模型框架：

2.5.1. Domain-Specific Pretraining

①作者使用了在医学数据上预训练过的模型：BioBERT、PubMedBERT、RoBERTa-PM

2.5.2. Segment Pooling

①作者先把整个临床文本切分成段，使用PLM编码之后得到段落表征，然后再聚合：

$\mathbf{H}=\text{concat}\left ( PLM(s_1),...,PLM(s_{\left | s \right |}) \right )$

2.5.3. Label-Aware Attention

①计算标签级注意力矩阵：

$\mathbf{Z}=\text{tanh}(\mathbf{VH})\\ \mathbf{A}=\text{softmax}(\mathbf{WZ})$

其中 $\mathbf{V}$ 和 $\mathbf{W}$ 是线性层

②标签级表示：

$\mathbf{D}=\mathbf{HA^\top }$

实际上，这里我觉得很奇怪，可能要联系上面的：

$\mathbf{H}=\text{concat}\left ( PLM(s_1),...,PLM(s_{\left | s \right |}) \right )$

来看，可能每个片段 $s$ 是一个竖直的向量，所以 $\mathbf{H}$ 的形状可能是 $d \times \left | s \right |$ ，实际上特征是在第0个维度，和平时的数学公式不太一样（可能代码里会这样用，但很多人写论文还是喜欢实体当第0个维度而特征当第一个维度。

因此后面的线性层+ $\text{tanh}$ 或 $\text{softmax}$ 实际上是在先平滑特征再归一化特征，我猜 $\mathbf{A}$ 会是一个 $|\mathcal{Y}| \times\left | s \right |$ 的形状，然后 $\mathbf{D}$ 则是 $d \times \left | \mathcal{Y} \right |$ （作者没提到这些形状，由于有时候论文公式可能和真的代码变量形状有区别，所以我也不想在这里测试代码变量形状）。然后作者提到 $\mathbf{D}$ 的每一行是这个临床诊断文本在其中一个真实标签下的特征。

③预测概率：

$\mathbf{p}_i = \operatorname{sigmoid}\left( \langle \mathbf{L}_i, \mathbf{D}_i \rangle \right)$

其中 $\mathbf{L}_i$ 是第 $i$ 个标签的向量， $\left \langle \cdot \right \rangle$ 是内积

④损失：

$\mathcal{L}(\mathbf{y}, \mathbf{p}) = -\frac{1}{|\mathbf{y}|} \sum_{i=1}^{|\mathbf{y}|} \Bigl( \mathbf{y}_i \log \mathbf{p}_i + (1 - \mathbf{y}_i) \log (1 - \mathbf{p}_i) \Bigr)$