NIC《Show and Tell: A Neural Image Caption Generator》
Image Caption是结合了CV和NLP的综合性任务,它的输入是一张图像,输出则是对该福图像进行描述的一段文字。该任务要求模型可以识别出图片中的物体,还可以用一句话描述表达出各个物体之间的关系。一、任务描述image caption常用数据集有:(1)Flickr8k:它包含8000张照片。6000训练,1000验证,1000测试;(2)Flickr30k:它包含3.1万张图片。我们有29000张train,1000张验证,1000张测试;(3)MSCOCO:在训练集中包含82,783个图像
转载
2020-07-22 11:16:48 ·
1832 阅读 ·
0 评论