深度学习相关阅读论文汇总(持续更新)

深度学习相关阅读论文汇总(持续更新)

注意:按我文件夹的顺序更新的

79 How you feelin’? Learning Emotions and Mental States in Movie Scenes

CVPR 2023

任务:电影故事分析需要理解人物的情绪和心理状态。为了实现这一目标,作者将情感理解定义为在电影场景和每个角色的层面上预测多样化和多标签的情感集。

本文工作:提出了EmoTx,这是一种基于多模态Transformer的架构,它可以利用视频、多个角色和对话来进行联合预测。通过利用MovieGraphs数据集中的注释,目标是预测典型的情绪(例如快乐、愤怒)和其他精神状态(例如诚实、乐于助人)。

作者对最常出现的10个和25个标签进行了实验,并对181个标签到26个标签进行了映射。消融研究和与最先进的情绪识别方法的比较显示了EmoTx的有效性。

链接:跳转

78 Procedure-Aware Pretraining for Instructional Video Understanding

CVPR 2023

目标:学习一种对instructional video中下游过程理解任务有用的视频表征。

用于教学视频理解的程序感知预训练

链接:跳转

77 A Ranking-Based Cross-Entropy Loss for Early Classification of Time Series,SCI 一区

IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS ,SCI 一区

Early classification of time series (ECTS)旨在在观察完整数据之前对时间序列进行分类。它在时间敏感的应用中至关重要,如重症监护病房(ICU)的早期败血症诊断。早期诊断可以为医生提供更多挽救生命的机会。
本文提出了一种基于ranking的交叉熵损失(RCE)方法,从时间序列数据中共同学习类的特征和早期顺序。这样,RCE可以帮助分类器生成具有更可区分边界的时间序列在不同阶段的概率分布。从而最终提高了每个时间步的分类精度。此外,为了提高方法的适用性,作者还将学习过程集中在高阶样本上,从而加快了训练过程。

链接:跳转

76 Learning Procedure-aware Video Representation from Instructional Videos and Their Narrations

CVPR 2023

互联网上丰富的instructional videos及其解说为理解程序性活动提供了令人兴奋的途径。

在这项工作中,作者建议学习视频表征,基于网络instructional videos及其叙述的大规模数据集,在不使用人工注释的情况下,对动作步骤及其时间顺序进行编码。本方法联合学习了一个视频表征来编码单个步骤概念,以及一个深度概率模型来捕获步骤顺序中的时间依赖性和巨大的个体变化。经验证明,学习时间排序不仅可以为过程推理提供新的能力,而且可以加强对单个步骤的识别。本模型在step分类(+2.8%/+3.3%在COIN / EPIC-Kitchens)和step预测(+7.4%在COIN)上显著提高了最新的结果。此外,本模型在step分类和预测的zero-shot推理以及对不完整过程的不同和合理步骤的预测方面取得了很好的结果。

代码:https://github.com/facebookresearch/ProcedureVRL

论文解读:跳转

1 Long-Term Temporal Convolutions(LTC)for Action Recognition

IEEE Transactions on Pattern Analysis and Machine Intelligence 2018
Key word:Action recognition, video analysis, representation learning, spatio-temporal convolutions, neural networks
链接:跳转

2 Towards Unified Surgical Skill Assessment

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2021
task:手术技能评估
链接:跳转

3 Hybrid Recurrent Neural Network Architecture-Based Intention Recognition for Human-Robot Collaboration

IEEE Transactions on Cybernetics ( Early Access ) 12 October 2021
task:人机交互中的意图识别
链接:跳转

4 MS-TCN++: Multi-Stage Temporal Convolutional Network for Action Segmentation

IEEE transactions on pattern analysis and machine intelligence 2020
task:动作分割
链接:跳转

5 Learning Motion in Feature Space: Locally-Consistent Deformable Convolution Networks for Fine-Grained Action Detection

Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019
task:细粒度的动作检测
链接:跳转

6 SV-RCNet: Workflow Recognition From Surgical Videos Using Recurrent Convolutional Network

IEEE Transactions on Medical Imaging 2018
task:手术工作流识别
链接:跳转

7 RSDNet: Learning to Predict Remaining Surgery Duration from Laparoscopic Videos Without Manual Annotations

IEEE Transactions on Medical Imaging 2019
task:手术剩余时间预计
链接:跳转

8 ActionCLIP: A New Paradigm for Video Action Recognition

Computer Vision and Pattern Recognition 2021 浙江大学
task:视频动作识别
链接:跳转

9 TSM: Temporal Shift Module for Efficient Video Understanding

Computer Vision and Pattern Recognition 2019
task:视频动作理解
链接:跳转

10 Learning Transferable Visual Models From Natural Language Supervision

Computer Vision and Pattern Recognition 2021
task:利用网上大规模的图片信息来进行训练从而做计算机视觉的任务
链接:跳转

11 Fast User-Guided Video Object Segmentation by Interaction-and-Propagation Networks

CVPR 2019
task:交互式的视频目标分割算法
链接:跳转

12 Rethinking Anticipation Tasks: Uncertainty-aware Anticipation of Sparse Surgical Instrument Usage for Context-aware Assistance

Medical Image Computing and Computer Assisted Intervention,MICCAI 2020
task:手术器械预测(附带有贝叶斯深度学习的解释)
链接:跳转

13 Intention Recognition of Pedestrians and Cyclists by 2D Pose Estimation

IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS,2020
task:行人和骑自行车者过马路的意图理解
链接:跳转

14 Aggregating Long-Term Context for Learning Laparoscopic and Robot-Assisted Surgical Workflows

2021 IEEE International Conference on Robotics and Automation (ICRA 2021)
task:面向更长时间的外科工作流识别
链接:跳转

15 Skeleton-based abnormal gait recognition with spatio-temporal attention enhanced gait-structural graph convolutional networks

Neurocomputing 2022
task:基于骨架特征的步态识别
链接:跳转`

16 Video Transformer Network

ICCV 2021
task:基于变压器的视频识别框架VTN
链接:跳转

17 X3D: Expanding Architectures for Efficient Video Recognition

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition CVPR 2020
task:将二维方法拓展到三维的视频识别方法
链接:跳转

18 End-to-End Semi-Supervised Learning for Video Action Detection

CVPR 2022
task:端到端的半监督视频动作检测方法
链接:跳转

19 Colar: Effective and Efficient Online Action Detection by Consulting Exemplars

CVPR 2022
task:在线动作识别
链接:跳转

20 Forecasting Human-Object Interaction: Joint Prediction of Motor Attention and Actions in First Person Video

ECCV 2020
task:anticipating human-object interaction in first person videos
链接:跳转

未完待续,如有兴趣请订阅收藏本专栏 (**)

  • 5
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值