![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读
文章平均质量分 74
CC‘s World
这个作者很懒,什么都没留下…
展开
-
改进蕴含奖励的videa caption强化模型
以往的加入蕴含奖励的视频描述生成强化模型是将预测到的语义描述和数据集中标注的语义描述之间做一个简单的软对齐将句子进行分解,把对整个句子的逻辑关系推理转化为对语义相似单词之间的并行推理,最终对单词之间的推理结果进行整合得到两个语句之间的逻辑关系。 我们认为之前的模型在对生成的语义描述和数据集中标注的语义描述之间进行推理时,无法跟踪文本序列中的长距离信息或依赖关系而使得对两个句子之间逻辑关系推理的准确性不高。所以我们对强化蕴含奖励机制进行改进,在对模型生成语义描述文本和数据集中的标注文本之间的逻辑关系进行推理时原创 2020-06-17 23:26:55 · 161 阅读 · 0 评论 -
VQA研究方法综述
VQA的问题可以是任意的,它包含一系列CV的子问题:对象识别、目标检测、属性分类、场景分类、计数等。除此之外,还有空间关系、常识推理等。VQA的总体是从图像中提取与问题相关的语义信息,从细微物体的检测到抽象场景的推理。 【主流模型与方法】 基本流程: 提取图像特征:VGGNet、ResNet、GoogleNet 提取问题特征:LSTM、GRU 特征整合,输出答案:基于分类和生成两种方法 基于分类的基本框架: 不同做法的差异主要体现在如何整合图像和文本的特征。整合图像和文本特征的方法: 简单机制:con原创 2021-03-03 13:07:26 · 2069 阅读 · 0 评论 -
【论文阅读】 A Decomposable Attention Model for Natural Language Inference
任务定义:输入前提文本(premise)和假设文本(hypothesis),预测假设文本和前提文本之间的关系——蕴含、矛盾或中立。 现有的模型计算量非常庞大,模型的参数非常多。与现有的方法相比,该方法仅依赖于对齐方式,并且对于输入文本完全是可分解的。 模型架构如上图所示,输入两个句子,句子中的每个词都用一个embedding向量表示,首先基于neural attention创建一个软对齐矩阵;然后通过软对齐将整个task分解成可以独立解决的子问题;最终,这些子问题的结果被整合起来从而预测最终的分类结果。除原创 2020-05-18 12:12:53 · 695 阅读 · 0 评论 -
【论文阅读】 Reinforced Video Captioning with Entailment Rewards
这篇论文主要有两个亮点: 以往的seq2seq模型在训练时都是经过word-level的交叉熵损失优化的,该损失与最终评估任务的sentence-level的度量没有很好的相关性;并且,以往的模型会遭受到曝光偏差(因为文本生成在训练和推断时的不一致造成的。不一致体现在推断和训练时使用的输入不同,在训练时每一个词输入都来自真实样本,但是在推断时当前输入用的却是上一个词的输出)。所以通过sequence-level的训练以及策略梯度的方法,就可以直接优化基于任务的sentence-level的度量;另外,通过原创 2020-05-14 18:37:29 · 298 阅读 · 0 评论