核心任务
- 结合标签描述和结构化标签空间,提出了一种用于预测多标签集合中的少样本和零样本标签的神经结构;
- 针对频繁、少样本和零样本标签,通过使用扩展的广义零样本方法评估幂律数据集。
动机
- 正确预测不频繁的标签,在某些情况下是至关重要的,而多标签的少样本和零样本预测在具有大标签空间的数据集中还没有被研究,特别是在文本分类中;
- 在开发用于大规模多标签文本分类问题的机器学习方法时,存在两个主要困难:文档可能很长导致相关信息查找困难和数据稀疏。
创新点
通过引入一种新的神经结构,克服了处理长文档带来的问题。
论文提出的模型通过将EMRs中的出院摘要与利用具有图CNNs(GCNNs)的结构化标签空间得到的每个标签的特征向量进行匹配,学会了预测少样本和零样本标签。具体过程如下:
- 生成标签向量
将所有单词小写化并删除停止词,通过平均单词描述中的词嵌入,来为每个标签形成一个向量表示,并用作 label-wise注意力。 - 为每一个标签生成特定的文本向量表示
(1)文本特征矩阵
使用CNN来生成文本特征矩阵D∈R(n-s+1)*u,其中n为输入文本的单词数量、s为滤波器的大小,u为滤波器的数量,每一列是一个特征图,每一行是一个ngram。再使用一个前馈神经网络生成D2∈Ru*d,用于匹配vi的维度。
(2)label-wise注意力向量ai∈Rn-s+1,表示对于某个标签,每一个ngram的信息量。
(3)为每一个标签生成特定的文本向量表示ci∈Ru,D中所有行的加权平均。 - 结构化标签空间
标签向量通过一个两层GCNN来合并标签空间的层次信息
第一层
第二层
将平均描述向量与GCNN标签向量连接起来 - 将GCNN返回的向量与文档向量匹配,生成预测
转化标签文本向量表示,匹配vi3的维度:
生成预测: - 使用多标签二元交叉熵损失来训练模型
论文使用MIMIC II和MIMIC III两个医学数据集进行评估。
- 通用的零样本学习评估方法
根据训练数据集中的频率将ICD-9标签分为三组:频繁组S、少样本组F和零样本组Z。 - 改进
(1)同一实例可以出现在所有组中,即S,F和Z;
(2)采用R@k作为评价指标处理多个标签,而不是top-1准确性或HIT@k。 - 原理
阈值设定对传统的多标签评价措施如micro-F1和macro-F1有很大的影响,因此,作者采用了R@k和P@k,它们都不需要特定的阈值。对于少样本和零样本标签,R@k是首选,因为随着k的增加,P@k会迅速变为零,并且会大于分配给每个实例的组特定标签的数量。
实验
CNN:300个大小为10的滤波器
使用在PubMed生物医学文章标题和摘要上预先训练好的300维单词嵌入。为了避免过拟合,直接在嵌入层之后使用dropout,其速率为0.2。
训练使用ADAM优化器,其最小批量为8,学习率为0.001。
GCNN:隐藏层的大小q为300。