论文阅读
文章平均质量分 84
hei_hei_hei_
这个作者很懒,什么都没留下…
展开
-
【论文阅读】ControlNet
ControlNet论文阅读原创 2023-06-08 10:44:09 · 2514 阅读 · 0 评论 -
DALL E2【论文阅读】
DALL E2论文阅读原创 2022-11-10 09:54:14 · 1574 阅读 · 2 评论 -
视频理解【论文学习】
视频理解【论文学习】原创 2022-11-06 15:56:45 · 576 阅读 · 0 评论 -
video caption with frame selection【论文阅读】
video caption with frame selection 【论文阅读】原创 2022-11-02 21:19:21 · 576 阅读 · 1 评论 -
Motion Guided Region Message Passing for Video Captioning【论文阅读】
Motion Guided Region Message Passing for Video Captioning【论文阅读】原创 2022-10-29 15:55:31 · 736 阅读 · 0 评论 -
O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning【论文阅读】
O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning【论文阅读】原创 2022-10-28 21:26:36 · 265 阅读 · 0 评论 -
Hierarchical Modular Network for Video Captioning【论文阅读】
Hierarchical Modular Network for Video Captioning【论文阅读】原创 2022-10-26 21:04:18 · 795 阅读 · 0 评论 -
Non-Autoregressive Coarse-to-Fine Video Captioning【论文阅读】
Non-Autoregressive Coarse-to-Fine Video Captioning【论文阅读】原创 2022-10-26 17:08:04 · 508 阅读 · 0 评论 -
论文阅读【Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks】
论文阅读【Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks】原创 2022-08-27 11:54:35 · 896 阅读 · 1 评论 -
论文阅读【Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network】
论文阅读【Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network】原创 2022-07-10 17:32:55 · 498 阅读 · 1 评论 -
论文阅读【Open-book Video Captioning with Retrieve-Copy-Generate Network】
论文阅读【Open-book Video Captioning with Retrieve-Copy-Generate Network】原创 2022-07-06 16:02:21 · 438 阅读 · 0 评论 -
论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】
论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】原创 2022-07-05 15:51:43 · 212 阅读 · 0 评论 -
论文阅读【MM21 Pre-training for Video Understanding Challenge:Video Captioning with Pretraining Techniqu】
论文阅读【MM21 Pre-training for Video Understanding Challenge:Video Captioning with Pretraining Techniqu】原创 2022-07-04 12:27:16 · 253 阅读 · 0 评论 -
论文阅读【Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention】
论文阅读【Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention】原创 2022-07-01 17:37:40 · 582 阅读 · 0 评论 -
论文泛读【FiLM: Visual Reasoning with a General Conditioning Layer】
论文泛读【FiLM: Visual Reasoning with a General Conditioning Layer】原创 2022-07-01 12:32:50 · 1679 阅读 · 0 评论 -
论文阅读【Discriminative Latent Semantic Graph for Video Captioning】
论文阅读【Discriminative Latent Semantic Graph for Video Captioning】原创 2022-06-30 21:40:45 · 755 阅读 · 0 评论 -
论文阅读【Learning to Discretely Compose Reasoning Module Networks for Video Captioning】
video caption论文阅读【Learning to Discretely Compose Reasoning Module Networks for Video Captioning】原创 2022-06-28 20:13:27 · 646 阅读 · 0 评论 -
论文阅读【Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset】
论文阅读【Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset】原创 2022-06-22 21:36:03 · 765 阅读 · 0 评论 -
论文阅读【VIT】
可以大致分为5个步骤,分别是:对于不同的任务,可以使用CLS用于预测或者将所有token取平均原创 2022-06-06 17:12:43 · 279 阅读 · 0 评论 -
论文阅读【Video Swin Transformer】
Video Swin Transformer发表:ICCV 2021idea:使用image recognition任务中提出的Swin Transformer来解决video recognition任务。至于Swin Transformer,请看上一篇文章代码:Video-Swin-Transformer详细设计Video Swin Transformer,严格遵循原始Swin Transformer的层次结构,但将局部注意力计算的范围从仅空间域扩展到了时空域。由于局部注意力是在非重叠窗口上原创 2022-05-18 17:41:14 · 688 阅读 · 0 评论 -
论文阅读【Swin Transformer: Hierarchical Vision Transformer using ShiftedWindows】
Swin Transformer: Hierarchical Vision Transformer using ShiftedWindows发表:2021 ICCVidea:主要是想改进transformer在视觉方向的速度。transformer从nlp到cv的挑战:这两个领域之间的差异,比如视觉实体的规模差异很大,图像中的像素与文本中的单词相比分辨率较高。之前的方法在分块中有重叠,导致性能不高,所以作者提出了一种层次变换器,其表示是用移位窗口计算的。移位窗口方案将自我注意计算限制在非重叠的局部窗口原创 2022-05-18 17:02:14 · 386 阅读 · 0 评论 -
论文阅读【SWINBERT: End-to-End Transformers with Sparse Attention for Video Captioning】
SWINBERT: End-to-End Transformers with Sparse Attention for Video Captioning发表原创 2022-05-17 17:49:00 · 1846 阅读 · 2 评论 -
论文阅读【EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching】
EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching发表:CVPR 2022idea:这篇文章是关于video caption评测指标的创新。传统的指标具有如下不足:(1)无法处理没有reference的情况。(2)reference无法详尽地描述是屁的所有细节,而且有限,导致评估的时候可能会过度惩罚(即使生成的文本表达的意思是正确的)(3)对于一些“幻想”的单词过轻处罚原创 2022-05-15 21:37:12 · 334 阅读 · 0 评论 -
论文阅读【Entangled Transformer for Image Captioning】
Entangled Transformer for Image Captioning发表:ICCV 2019idea:典型的注意机制很难识别等价的视觉信号,尤其是在预测高度抽象的单词时。这种现象被称为视觉和语言之间的语义鸿沟。这个问题可以通过提供与语言同源的语义属性来解决。主要是沿用了transformer架构和设计,在encoder阶段使用了两个独立的transformer encoder分别编码视觉信息和语义信息。在decoder端使用作者设计的纠缠注意力以弥补传统注意力在二者之间缺乏的互补性,以原创 2022-05-13 21:04:29 · 479 阅读 · 0 评论 -
论文阅读【XlanV Model with Adaptively Multi-Modality Feature Fusing for Video Captioning】
XlanV Model with Adaptively Multi-Modality Feature Fusing for Video Captioning发表:ACMM 2020idea:鉴于X-Linear Attention Network在image caption中的成功,在X-Linear Attention Network扩展了自适应模态融合模块。具体做法是使用CNN提取视频的静态特征,I3D提取视频的动态特征,然后分别输入到多层X-Linear Attention中,最后再解码的时候对原创 2022-05-13 14:14:32 · 402 阅读 · 0 评论 -
论文阅读【X-Linear Attention Networks for Image Captioning】
X-Linear Attention Networks for Image Captioning发表:CVPR 2020idea:image caption。传统的注意力机制只挖掘了输入特征的一阶交互,作者考虑到双线性池化可以有效地处理多模态输入的二阶交互。于是使用双线性池化来改进传统的attention,引入X-线性注意力块,通过双线性池化来选择性地利用视觉信息执行多模态推理。并通过多次堆叠块和引入ELU达到提取高阶交互的作用。X-Linear attention block双线性计算X-原创 2022-05-12 20:45:00 · 911 阅读 · 0 评论 -
论文阅读【Attention on Attention for Image Captioning】
发表:2019 ICCVidea:对注意力机制的改进。传统的attention中,不管Q和K/V是否相关,都会为Q输出一组归一化的权重,即使二者并不相关,这会产生误导信息。因此作者提出了AoA(Attention on Attention)模块,用于关注Q和V之间的相关性,在传统的attention的基础上再增加另一个attention。AoA block用于关注Q和V之间的相关性,通过对Q和V进行线性变化生成information vector iii和attention gate ggg使.原创 2022-05-12 20:43:52 · 1559 阅读 · 0 评论