Survey
文章平均质量分 93
扫文
不吃饭就会放大招
人工智能领域专家博主
展开
-
Neuraltalk2
Neuraltalk2 说明Neuraltalk论文:Deep Visual-Semantic Alignments for Generating Image Descriptions之前的版本是 Neuraltalk,采用 python 编写,但是由于效率较低而且有了更好的 Neuraltalk2,所以这个版本现在已经不再做维护,这里只提供代码,如果有需要的话。Neuraltalk 代码地...原创 2019-08-08 20:40:03 · 1842 阅读 · 0 评论 -
【Image Registration】图像配准综述
图像配准 是将在同一场景下,但不同时间点,或不同视角,或不同采集设备拍摄的多幅(≥2)图像进行匹配。假设有两幅图像 Fixed Image 和 Moving Image,图像配准就是要寻找一种空间变换(Transformation),将 moving image 变换到 fixed image 上,使得两幅图中对应同一空间位置的点一一对应,从而达到信息融合的目的。图像配准英文通常为:Image Registration,还有一些别名包括:Image Fusion,Superimposition,Matchi原创 2022-06-03 13:37:09 · 26801 阅读 · 9 评论 -
【Image Caption】Deep Visual-Semantic Alignments for Generating Image Descriptions
给定一张图片,为图片生成相应的描述语句。提出了两个模型:1)Alignment model(为第二个模型做准备工作)2)Multimodal Recurrent Neural Network modelAlignment model 用于寻找训练集图片中的图像区域和其描述语句的语句片段之间的潜在对应关系,该模型包含两个模块:1)CNN 负责处理图像2)RNN 负责建立序列模型Multimodal Recurrent Neural Network model 用于实现最终目标,即输入整幅图片并为其生成原创 2019-08-08 20:46:17 · 2330 阅读 · 2 评论 -
【Image Caption】Adaptive Attention
本文观点:在 caption 中非视觉词 (比如 the,of 等) 的生成,并不需要视觉信息,它们的梯度反而会影响到视觉信息的有效性。而且,有些看似需要视觉特征来生成的词,也可以通过人类的语言模型预测出来 (比如 “taking on a cell” 后面生成 “phone”)。改进方法:设计了蕴含历史信息的 visual sentinel,来表示已生成文本的历史信息。然后引进一个参数,来控制 attention 中视觉信息和历史信息的比重。相当于从时间的维度来决定什么时候看,看多少。此外,作者改变了原创 2019-11-14 19:16:52 · 1878 阅读 · 0 评论 -
RNN & LSTM(Recurrent Neural Network)
RNNRNN 有很大的灵活性,可以用于:one to one(Vanilla Neural Network)one to many(Image Captioning 看图说话)image -> sequence of wordsmany to one(Sentiment Classification 情感分析)sequence of words -> sentimentma...原创 2019-06-02 11:32:10 · 688 阅读 · 0 评论