论文阅读
文章平均质量分 92
计算机视觉、深度学习论文阅读,大致翻译,主要为视频分析方向
Mr. Anonymous
这个作者很懒,什么都没留下…
展开
-
【论文阅读】Attention Is All You Need
Abstract序列转换任务(如机器翻译)通常使用基于卷积或循环神经网络组成的encoder-decoder模型,当时最好的模型采用attention机制连接encoder和decoder。提出一个简单的Transformer架构,完全依赖于attention机制。实验证明该模型取得良好的性能,并且还有容易并行化(parallelizable)、训练时间短等优点。Introduction在序列建模及转换问题中,通常使用RNN,LSTM等模型。RNN的一个突出问题是由于它的时序特性,训练时无法并行化,原创 2022-04-16 01:30:58 · 1038 阅读 · 0 评论 -
【论文阅读】Learning Deep Features for Discriminative Localization
Abstract研究了全局平均池化(global average pooling, GAP),分析了它如何仅仅使用图像级标签训练就能使CNN具有出色的定位能力(localization ability)。作者发现,尽管GAP若为一种正则化手段被提出(来自Network in Network),但它其实建立了一种具有定位能力的表示 ,可以显示出CNN在一张图片中关注到的区域。作者仅使用GAP和图像级标签(即仅使用图像标签进行弱监督语义分割),在ILSVRC2014的目标检测任务上取得了37.1%的top-5原创 2022-04-15 00:27:37 · 3510 阅读 · 0 评论 -
【论文阅读】Video Action Transformer Network
Abstract提出Action Transformer,一种利用Transformer架构聚合视频中进行动作的人的spatiotemopral context feature的动作分类和定位模型。实验表明,通过使用high-resolution, person-specific, class-agnostic queries,模型可以学会追踪视频中的个人,并将个人的动作从其他动作中挑选出来。Introduction动作识别的难点之一是:推断一个人的动作经常需要理解**关注对象(person of原创 2022-04-14 19:48:38 · 4356 阅读 · 4 评论 -
【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
Temporal Segment Networks: Towards Good Practices for Deep Action RecognitionAbstract卷积网络在动作识别领域带来的提升不像图像领域那么大提出TSN,基于长距离时序建模的思想,结合时序稀疏采样(sparse temporal sampling)策略和视频级监督(video-level supervision)进行视频动作识别。Introduction卷积网络在图像分类上取得了巨大的成功,但在视频动作识别上却没有取得相原创 2022-04-11 01:14:15 · 3357 阅读 · 0 评论 -
【论文阅读】UntrimmedNets for Weakly Supervised Action Recognition and Detection
Abstract提出 UntrimmedNet ,从Untrimmed视频的视频级标签中直接学习动作识别和检测模型,分为 classification 和 selection 两个模块,可端到端训练。Introduction动作识别通常是基于trimmed video 的全监督学习,而不是较长的untrimmed video。在长视频中标注并剪切动作发生位置费时费力,而untrimmed video在网站上很容易获得。提出两个新问题: weakly supervised action recogn原创 2022-04-11 15:27:07 · 3508 阅读 · 0 评论