AAAI论文阅读

最新推荐文章于 2024-01-12 17:13:19 发布

YingJingh

最新推荐文章于 2024-01-12 17:13:19 发布

阅读量1.7k

点赞数

分类专栏：论文记录文章标签：论文阅读

本文链接：https://blog.csdn.net/hekena/article/details/132176216

版权

论文记录专栏收录该内容

147 篇文章 9 订阅

订阅专栏

文章目录

Open-Vocabulary Multi-Label Classifcation via Multi-Modal Knowledge Transfer——知识蒸馏的范畴
Med-EASi: Finely Annotated Dataset and Models for Controllable Simplifcation of Medical Texts——医学领域数据集构建
“Nothing Abnormal”: Disambiguating Medical Reports via Contrastive Knowledge Infusion
Self-Supervised Logic Induction for Explainable Fuzzy Temporal Commonsense Reasoning——时序信息

Open-Vocabulary Multi-Label Classifcation via Multi-Modal Knowledge Transfer——知识蒸馏的范畴

多模式知识传播

在这里插入图片描述

我们的 MKT 主要由视觉和语言预训练（VLP）模型和视觉转换器模型组成。VLP 模型旨在提取输入图像-文本对的多模态知识，而视觉转换器则用于提取输入图像的语义特征。此外，还利用知识提炼来保证图像及其相关标签嵌入的一致性，并通过及时调整来进一步更新标签嵌入。(最佳彩色效果）
在这里插入图片描述
主要贡献：

我们提出了一种基于开放词汇的多模态知识转移（MKT）框架，该框架基于 VLP 模型，利用图像-文本对中的语义多模态信息进行多标签分类。据我们所知，这是第一项探索开放词汇多标签分类任务的工作。
我们的 MKT 框架主要由提取图像特征的图像编码器和提取图像/标签嵌入的 VLP 图像/文本编码器组成。为了保证图像和标签嵌入的一致性，我们在 MKT 框架中加入了知识蒸馏策略，并通过及时调整来迭代更新标签嵌入。此外，为了进一步提高我们方法的特征表达能力，我们提出了双流特征提取模块，通过联合捕捉局部特征和全局特征来提高特征提取的能力。
大量结果表明，我们的 MKT 方法明显优于之前的 ML-ZSL 方法，并在两个大规模基准测试中为开放词汇多标签分类建立了新的技术水平

Med-EASi: Finely Annotated Dataset and Models for Controllable Simplifcation of Medical Texts——医学领域数据集构建

MedEASi（简化和抽象医学数据集）是一个独特的众包和注释数据集，用于监督医学短文的简化。

我们采用多角度训练方法，为文本简化添加了两种可控性：位置感知（使用原位注释输入和输出）和位置无关（模型只知道要编辑的内容，但不知道它们的位置）。

数据集我们对现有的两个并行医学文本简化语料库进行了四种文本转换注释，即阐述、替换、删除和插入新内容。

“Nothing Abnormal”: Disambiguating Medical Reports via Contrastive Knowledge Infusion

"没有异常通过对比知识注入消除医疗报告的歧义

我们探讨了医疗保健领域的受众期望差距，并将导致患者对其诊断感到困惑的常见歧义归纳为三类：医学术语、自相矛盾的结论和误导性语法错误。

我们的医疗团队对结果进行了分析，并将产生歧义的主要原因归纳为三类：报告句子含糊不清的原因是：（1）医学术语的含义与日常一般用法不同，如unsmarkable；（2）同一句子中的结论相互矛盾；（3）误导性语法错误，如完整句子之间没有句号。

解决方案（模型）：我们首先通过对比学习对医学领域的 Seq2Seq 模型进行预训练。然后，通过扰动模型的隐藏状态，使用该模型改写模棱两可的输入，并将生成的结果推向对其考试结果更加明确的方向。

任务表示形式：
对于异常标签为 y（是否存在异常）的模棱两可的句子 x，我们将输出一个对 y 更明确的消歧义句子 x˜。
For an ambiguous sentence x whose abnormality label is y (abnormality presents or not), we will output a disambiguated sentence x˜ that is more explicit about y.
在这里插入图片描述
预训练阶段损失函数：

重写阶段（Rewriting framework）：

在这里插入图片描述

Self-Supervised Logic Induction for Explainable Fuzzy Temporal Commonsense Reasoning——时序信息

问题来源： 最近的一项研究表明，经过大规模预训练的 LM 在复杂语境（如对话）下仍难以进行这种时间推理，因为它们只能隐式地编码相关语境，而不能显式地揭示复杂推理的基本逻辑组合。
定义了三个模块化组件：时态依赖诱导器和时态概念模糊器，以及逻辑验证器。

模型结构：
LECTER 框架。我们利用逻辑归纳模块（logic induction module）来解决模糊时态常识推理的中间推理步骤（intermediate inference steps）。逻辑验证器（The logic validator）从依赖诱导器和概念模糊器中获取预测概率分布，计算时态逻辑蕴含损失。它与基于回归的时值恢复损失一起，以端到端的方式训练模型（regression-based temporal value recovery loss to train the model in an end-to-end manner）。
在这里插入图片描述
we propose two self-supervised learning objectives, i.e., the Regression-based Temporal Value Recovery and Temporal Logical Entailment.
我们提出了两个自监督学习目标，即基于回归的时域价值恢复和时域逻辑不一致
（小trick：将时序做了变换处理，比如7:30 pm →19 + 30/60 → 19.5）

损失函数：

回归损失（mean square loss——均方误差）：
分类损失
给定训练示例 X 和作为查询的 q，模型需要调整权重，使所有训练示例的查询概率 Pθ(q|X ) 最大化。这可以通过最小化查询的平均负对数似然来实现：
总损失函数

YingJingh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
AAAI论文阅读

报告句子含糊不清的原因是：（1）医学术语的含义与日常一般用法不同，如unsmarkable；最近的一项研究表明，经过大规模预训练的 LM 在复杂语境（如对话）下仍难以进行这种时间推理，因为它们只能隐式地编码相关语境，而不能显式地揭示复杂推理的基本逻辑组合。我们采用多角度训练方法，为文本简化添加了两种可控性：位置感知（使用原位注释输入和输出）和位置无关（模型只知道要编辑的内容，但不知道它们的位置）。然后，通过扰动模型的隐藏状态，使用该模型改写模棱两可的输入，并将生成的结果推向对其考试结果更加明确的方向。
复制链接

扫一扫