报告内容
(泛读靠自觉,精读要深刻,进展需显著)
论文精读
论文1:(作者,题目,发表信息)
作者:Andrea Frome*, Greg S. Corrado*, Jonathon Shlens*, Samy Bengio,Jeffrey Dean,Marc‘Aurelio Ranzato,Tomas Mikolov(谷歌公司)
题目:【NIPS2013】DeViSE: A Deep Visual-Semantic Embedding Model(深层视觉语义嵌入模型)
问题动机:通过对数据集的训练实现根据图片进行零样本预测语义标签
解决思路:
方法亮点:
1)视觉神经网络模型与语义模型组合; (2)两网络进行预训练,并将参数传递给联合模型; (3)使用了两种评估标准分别与主流方法进行比较; (4)比较了不同难度的数据集预测情况; (5)两种版本预测内容(训练标签与零样本标签)不同。
主要结果:根据图片预测标签,并进行分类
存在问题:
关于能否解决自己问题的思考:DeViSE+1K和DeViSE+0 表示是否预测未出现的标签
论文2:(作者,题目,发表信息)
题目:【CVPR2016】Learning deep representations of fine grained visual descriptions.(细粒度视觉描述的深层表示)
作者:密歇根大学,马克斯-普朗克信息学研究所
Scott Reed1 , Zeynep Akata2 , Honglak Lee1 and Bernt Schiele
问题动机:
解决思路:
方法亮点:(1)深层联合结构(2)文本编码器模型函数
主要结果:
存在问题:
关于能否解决自己问题的思考:目标函数和损失函数的定义值得学习(双向损失函数)
研究进展
方法进展(反映思考深入程度):
实验进展(反映Coding工作量):