论文阅读:UniFormer和UniFormerV2 原文提出了一种新的UniFormer,它可以有效地统一3D卷积和时空自注意力在一个简洁的Transformer格式,以克服视频冗余和依赖。我们在浅层采用局部MHRA,大大减少了计算负担,在深层采用全局MHRA,学习全局令牌关系。大量的实验表明,我们的UniFormer在流行的视频基准测试Kinetics-400/600和Something-Something V1/V2上实现了准确性和效率之间的较好平衡。
论文阅读:Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos(S2D) 在本文中,我们提出了一个简单而强大的框架,S2D,它适应了一个关键点感知的图像模型,用于视频中的面部表情识别。本研究表明可以利用来自SFER数据和面部界标检测的先验知识来增强DFER性能。这项工作中采用的多视图互补提示器(MCP)有效地利用了在AffectNet数据集上学习的静态面部表情特征和来自MobileFaceNet 的面部地标感知特征。此外,S2D加入时间建模适配器(TMA)从静态表情识别拓展到动态表情识别,并采用了自蒸馏损失(SDL)。
Vision Mamba:使用双向状态空间模型进行高效视觉表示学习 该方法利用位置嵌入对图像序列进行标记,并利用双向状态空间模型对视觉表示进行压缩。ViT可以通过自注意为每个图像块提供数据/块相关的全局上下文通过将图像视为没有2D归纳偏差的补丁序列来进行模态不可知建模,这使其成为多模态应用的优选架构VIT的缺点:处理长距离视觉依赖时的速度和内存使用较差Mamba用于视觉任务的挑战:单向建模和缺乏位置意识本文提出Vision Mamba(Vim),它采用了双向SSM数据相关的全局视觉上下文建模和用于位置感知视觉理解的位置嵌入。
Task05:PPO算法 PG方法的缺点是数据效率和鲁棒性不好。同时TRPO方法又比较复杂,且不兼容dropout(在深度神经网络训练过程中按照一定概率对网络单元进行丢弃)和参数共享(策略和值函数间)。这篇论文提出了PPO算法,它是对TRPO算法的改进,更易于实现,且数据效率更高。TRPO方法中通过使用约束而非惩罚项来保证策略更新的稳定性,主要原因是作为惩罚项的话会引入权重因子,而这个参数难以调节。TRPO中为了解优化问题,先线性近似目标函数,二阶近似约束,最后通过conjugate gradient算法和line search求解
Task04:DDPG、TD3算法 本文主要介绍了强化学习中较为常用的一类算法,即 DDPG和TD3算法,它们虽然在结构上被归类于Actor-Critic算法,但从原理上来说跟DQN算法更为接近。先介绍了DDPG算法,它相当于DQN算法的一个连续动作空间版本扩展,它在DDPG在动作中引入噪声进一步提升了模型的探索能力。之后介绍了TD3算法,它主要包括了双Q网络、延迟更新和躁声正则。最后进行了代码实战。
深度强化学习Task3:A2C、A3C算法 本文首先从蒙特卡洛策略梯度算法和基于价值的DQN族算法的缺陷进行切入,引出了Actor-Critic 算法。该算法主要是对Critic 部分进行了改进,在Q Actor-Critic 算法提出的通用框架下,引入一个优势函数,即A2C算法。原先的 A2C算法相当于只有一个全局网络并持续与环境交互更新,而A3C算法中增加了多个进程,使每一个进程都拥有一个独立的网络和环境以供交互,并且每个进程每隔一段时间都会将自己的参数同步到全局网络中,提高了训练效率。之后介绍了广义优势估计着一种通用的模块,它在实践中可以用在
深度强化学习Task2:策略梯度算法 本文从对比基于价值的算法和基于梯度的算法,分析了它们各自的优缺点,之后用一个直观的例子引入了策略梯度算法,REINFORCE算法用来解决轨迹无限多而无法计算的问题,但是这个算法由于假定了目标是使得每回合的累积价值最大,而每回合的累积奖励或回报会受到很多因素的影响,比如回合的长度、奖励的稀疏性等等,从而泛化性不够。为了解决这个问题,提出了基于平稳分布的策略梯度算法。最后介绍了一下策略函数的实现。
深度强化学习Task1:马尔可夫过程、DQN算法回顾 本篇文章首先介绍了什么是强化学习,强化学习的作用以及应用场景。之后介绍了马尔可夫决策这一基本强化学习问题,了解了马尔可夫决策过程主要包含哪些要素,以及它和马尔可夫链之间的关系。之后我们学习了DQN算法,它首次将深度学习引入强化学习中,通过与Q-learning的对比介绍了DQN算法的基本流程以及代码实现。最后介绍了一些DQN算法的变种。
Pytorch基础知识点复习 本篇博客是本人对pytorch使用的查漏补缺,参考资料来自[深入浅出PyTorch](https://datawhalechina.github.io/thorough-pytorch),本文主要以提问的方式对知识点进行回顾,列举了pytorch初学者常见的问题,大家可以按需求进行查阅,或者对自己的pytorch的基础知识进行测试。
Video classification with UniFormer基于统一分类器的视频分类 原文提出了一种新的UniFormer,它可以有效地统一3D卷积和时空自注意力在一个简洁的Transformer格式,以克服视频冗余和依赖。我们在浅层采用局部MHRA,大大减少了计算负担,在深层采用全局MHRA,学习全局令牌关系。大量的实验表明,我们的UniFormer在流行的视频基准测试Kinetics-400/600和Something-Something V1/V2上实现了准确性和效率之间的较好平衡。
ActionCLIP:A New Paradigm for Video Action Recognition 本文将动作识别看作是一个视频-文本多模态学习问题,为动作识别提供了一个新的视角。与将任务建模为视频单模态分类问题的规范方法不同,我们提出了一个多模态学习框架来利用标签文本的语义信息。然后,我们制定了一个新的范式,即,“预训练、提示、微调”,使我们的框架能够直接重用强大的大规模Web数据预训练模型,大大降低了预训练成本。
面部动作在情绪识别中的作用(nature reviews psychology2023) 过去大多数关于情绪识别的研究都使用了摆拍的表情照片,旨在描绘情绪表现的峰值。虽然这些研究为人们如何在面部感知情绪提供了重要的见解,但它们必然会遗漏动态信息的任何作用。在这篇综述中,我们综合了视觉科学、情感科学和神经科学的证据,探讨了动态信息在静态图像中传达的信息之外,何时、如何以及为什么有助于情感识别。动态显示提供了独特的时间信息,如运动的方向,质量和速度,补充了更高层次的认知过程和支持社会和情感推理,增强面部情感的判断。动态信息对情绪识别的积极影响在观察者受损和/或面部表情退化或微妙的次优条件下最为明显。
论文阅读:Intensity-Aware Loss for Dynamic Facial Expression Recognition in the Wild(AAAI2023) 与基于图像的静态人脸表情识别(SFER)任务相比,基于视频序列的动态人脸表情识别(DFER)任务更接近自然表情识别场景。然而,DFER往往更具挑战性。其中一个主要原因是,特别是对于真实世界场景中的面部表情,而SFER中的图像经常呈现均匀且高的表情强度。然而,如果同等对待不同强度的表情,网络学习的特征将具有,这对DFER是有害的。为了解决这个问题,我们提出了,以帮助网络区分表达强度相对较低的样本。在两个野外动态面部表情数据集上的实验(即,DFEW和FERV39k)表明,我们的方法优于最先进的DFER方法。
论文阅读:LOGO-Former: Local-Global Spatio-Temporal Transformer for DFER(ICASSP2023) 在本文中,我们提出了一个简单而有效的局部-全局Transformer(LOGO-Former)和紧凑的损失正则化项在野生动态面部表情识别(DFER)。我们联合应用每个块内的局部注意力和全局注意力来迭代地学习时空表示。为了进一步提高模型的判别能力,我们通过紧凑的损失正则化项对预测分布施加约束,以增强类内相关性并增加类间距离。实验结果和可视化结果表明,我们的方法学习的歧视性时空特征表示,并提高了分类边缘。
(14)学习笔记:动手深度学习(Pytorch神经网络基础) 将输入数据作为其前向传播函数的参数。通过前向传播函数来生成输出。请注意,输出的形状可能与输入的形状不同。例如,我们上面模型中的第一个全连接的层接收一个20维的输入,但是返回一个维度为256的输出。计算其输出关于输入的梯度,可通过其反向传播函数进行访问。通常这是自动发生的。存储和访问前向传播计算所需的参数。根据需要初始化模型参数。# 用模型参数声明层。这里,我们声明两个全连接的层# 调用`MLP`的父类`Module`的构造函数来执行必要的初始化。
Git基础命令实践 本文主要记录了我在学习git操作的过程,以及如何使用GitHub。建议先参考廖雪峰的git教程实操练习一遍,再利用进行巩固。下文内容是对廖雪峰git教程的实践本文记录了我在学习git过程中的一些常用命令,当我们对git有一个整体而全面的认识之后,我们后面可以通过查文档,或者GPT来完成任务。
论文阅读:Rethinking the Learning Paradigm for Dynamic Facial Expression Recognition【CVPR2023】 MIL流水线通常包括四个步骤:实例生成、实例特征提取、实例聚合和分类。 在DFER的情况下,所提出的M3DFEL框架遵循该步骤:利用3DCNN从生成的3D-instances中提取特征并学习短期时间关系。DLIAM是用来模拟长期的时间关系,同时动态融合的实例到一个包。为了保持包级和实例级的时间一致性,引入了DMZ(动态归一化)。