论文解读
文章平均质量分 86
pzb19841116
大龄男讲师
展开
-
Dual-Branch Cross-Attention Network for Micro-Expression Recognition with Transformer Variants阅读笔记
另一方面,光流信息提供了帧与帧之间的连续性信息,有效地保持了ME序列的一致性,减少了噪声和不连续的干性。为了方便不同信息类型之间的有效交互,我们设计了交叉注意力块( cross attention block,CAB ),它是一种用于不同特征表示之间交互和信息传播的注意力机制。CNN的缺点:通过分层与共享权重的卷积核,CNN倾向于局部信息,容易忽略上下文的关联性和全局信息的作用。传统手工方法其特征表示是场景受限的,缺乏对ME细微差别的关注,这是传统手工特征的缺陷。原创 2024-08-18 19:34:04 · 681 阅读 · 1 评论 -
Facial Micro-Expression Recognition Based on DeepLocal-Holistic Network 阅读笔记
针对微表情短暂且强度低的特点,微表情数据在空间和时间域中都是稀疏的。因此,借鉴Wang等人的思想,将微表情中的细微动作信息视为所需的E,将噪声视为A,采用RPCA从微表情帧中提取稀疏信息,然后将提取的信息馈送到RPRNN,学习微表情的稀疏和整体特征。然而,微表情样本数量少且微表情的微妙短暂特性限制了深度学习与微表情识别方法的结合,因此,如何有效学习微表情特征对于进一步提高性能至关重要。深度本地-整体网络通过HCRNN和RPRNN的融合,捕获了局部-整体、稀疏-丰富的微表情信息,并提高了微表情识别的性能。原创 2024-04-10 11:40:01 · 964 阅读 · 0 评论 -
Transformers in Vision:A Survey 阅读笔记
Visual Grounding with Transformer[206]具有编码器-解码器架构,其中视觉标记(从预训练的CNN模型中提取的特征)和文本标记(通过RNN模块解析)在编码器的两个不同分支中并行处理,具有跨模态注意力,以生成文本引导的视觉特征。尽管有人可能认为像Transformer模型这样的架构应该是通用的,可以直接应用于各个领域,但我们注意到,预训练这些模型所需的高计算成本和时间成本需要新的设计策略,使它们在视觉问题上的训练更具成本效益。原创 2024-04-03 16:41:53 · 1086 阅读 · 0 评论 -
Integrating VideoMAE based model and Optical Flow for Micro- and Macro-expression Spotting 阅读笔记
VideoMAE 是基于视频掩模自编码器的自监督视频预训练方法,旨在利用视频的时间维度作为静止图像的时间演变,并解决视频中的语义冗余和时间相关性。如图1中的总体框架图所示,我们的方法分为3个部分:数据集预处理、基于VideoMAE的自监督训练、区间融合和后处理策略。该方法的目标是自动识别微表情和宏观表情。我们通过训练多个宏观和微观表情模型,采用不同的细粒度和生成不同长度的表情片段,探索最佳的组合方法。一般而言,与微表情相关的任务主要包括两个方面:长视频中的微表情识别和微表情片段中的情绪识别。原创 2024-03-26 09:57:05 · 689 阅读 · 0 评论 -
Three Stream Graph Attention Network using Dynamic Patch Selection for the classification ofME 阅读笔记
对于图网络的第一流,节点特征向量是面部地标点的 x 和 y 位置坐标,用于理解每个地标点相对于其先前位置的运动变化。在计算了每个关键点上的光流特征矩阵后,对特征矩阵进行了零填充,使其变成10×10的补丁大小,以便简化计算。光流幅度特征向量是图网络的第二个流的输入,而光流方向特征向量是图网络的第三个流的输入。然后,根据节点的注意力分数以及所选的池化比率 k,选择保留在图中的前 k 个节点。1.微表情具有微妙而短暂的行为特征。基于保留节点及其之间的连接,创建新的特征矩阵和新的邻接矩阵,形成新的图结构。原创 2024-03-13 13:48:00 · 698 阅读 · 0 评论 -
3D-CNN FOR FACIAL MICRO-AND MACRO-EXPRESSIONSPOTTING ON LONG VIDEO SEQUENCES USING TEMPORALORIEN阅读笔记
漂移误差是光流方法的一个挑战,尤其是在需要准确追踪物体长时间运动的应用场景中,如高帧率宏表情的分析。这有助于捕捉图像中的局部特征。它的主要作用是通过去除信号中的高频噪声,同时保留低频信号,来平滑或清除信号中的不需要的频率成分。我们提出了一个基于3D-CNN的两流网络(如图1所示),利用ME和MaE的持续时间差异,通过在每个流中使用不同数量的跳帧来使一个网络对ME更敏感,另一个对MaE更敏感。我们注意到先前的尝试缺乏基于持续时间的分析,因此提出了一个基于两者持续时间差异的两流网络,用于微表情和宏表情的识别。原创 2024-03-12 06:03:04 · 826 阅读 · 0 评论 -
Facial Micro-Expressions:An Overview 阅读笔记
ME生成是ME分析的新方向,尽管当前生成的ME质量尚不够逼真,但进一步的研究预计将在其他ME分析方面发挥作用,如MER、ME检测和ME AU检测,同时也可用于增强现实、人机交互等领域。早期的自发微表情(ME)数据集主要包含前方的2D视频,因为这相对容易收集和分析,导致大多数现有的ME方法只能分析前方面部,并无法处理现实世界应用中的挑战,如光照变化、遮挡和姿态变化。为了在长视频中区分MaEs和MEs,提出了基于频率的ME定位方法,通过利用频率域中的信息来定位ME序列中的顶点帧,这可以反映面部变化的速率。原创 2024-03-06 10:59:02 · 858 阅读 · 0 评论 -
MESNet:A Convolutional Neural Network forSpotting Multi-Scale Micro-ExpressionIntervals 阅读笔记
通过多尺度分析,如不同长度的归一化或多尺度视频采样,基于间隔的定位方法可以适应和检测不同长度的ME片段,并更好地区分ME和其他类型的面部运动。每个子网络相当于在视频上滑动的固定长度窗口,其输出是一组概率,表示与滑动窗口对应的视频片段属于ME的可能性。目前的研究仍然面临一个挑战,即如何从有限的数据中有效地提取或学习最具代表性的时空特征,从而准确地定位长视频中的ME时间位置。微表情研究初期,仅考虑在收集微表情样本时仅记录发生微表情时的视频片段,即所谓的短视频,包括微表情发生前几帧和发生后几帧。原创 2024-03-02 14:23:46 · 1008 阅读 · 0 评论 -
Data Leakage and Evaluation Issues inMicro-Expression Analysis 阅读笔记
碎片化指的是评估协议或方法的分散、零散,导致评估过程不一致或无法比较不同模型的性能。为了解决这个问题,作者梳理了常见的陷阱,提出了一个新的标准化评估协议,使用了超过2000个微表情样本的面部动作单元,并提供了一个实现标准化评估协议的开源库。在训练过程中使用测试数据的信息可能导致较大的正向偏差,但这种正向偏差是误导性的,不代表可泛化的性能,特别是当一个折叠只是一个单独的主体时。然而,最近我们注意到了一个令人担忧的趋势,即出现了极高但不可靠的性能,接近完美表现,并在分析可用源代码时出现了潜在的评估问题。原创 2024-02-27 13:00:05 · 569 阅读 · 0 评论 -
Geometric Graph Representation with Learnable Graph Structure and Adaptive AU Constraint 阅读笔记
然而,一方面,现有的基于特征点的图聚合动态信息的工作,如光流和放大的形状特征,仍然需要花费大量的计算成本来提取这些特征。相反,人脸特征点是一种更紧凑的模态,可以为MER保留具有判别性的几何特征,并取得了良好的性能。总体而言,在较早的层中,AAU损失约束模型侧重于从人脸特征中学习高层的AU特征,而在较深的层中,则侧重于从高层的AU特征中学习高层的ME特征。我们提供了一种简单高效的方法,直接将基于特征点坐标的几何特征作为节点特征,而不是提供复杂且昂贵的外观特征或不易获取的AU特征。原创 2024-02-22 10:56:04 · 565 阅读 · 0 评论 -
CMNet:Contrastive Magnification Network for Micro-Expression Recognition 阅读笔记
随机灰度,这个方法是将图像转换为灰度图,并且这个转换的过程是随机的。在我们的方法中,我们采用了这个测试来校准提取的强度线索,以符合所建立的原型的变化。获取负样本的三种方法,第一种是全都取,第二种的相同的概率抽取,第三种先计算锚定帧与其他帧之间的差异,再将差异通过softmax转换成概率。作为强度的一种表示,特征向量被独立地提取出来,并受到一个损失的约束,在这个过程中,网络实现了强度增强。AAAI 2023的一篇文章,东南大学几位老师的工作,用于做微表情识别中的运动增强工作, 以下是阅读时记录的笔记。原创 2024-02-19 22:49:41 · 1043 阅读 · 0 评论 -
Feature refinement 的阅读笔记
利用双流Inception网络作为骨架进行表情共享特征学习,利用带有注意力机制的表情提议模块进行表情特异性特征学习,利用融合的表情细化特征进行标签预测。在未来的研究中,我们将考虑一种端到端的MER方法,寻找更有效的方法来丰富微表情样本,并从大规模数据库中使用迁移学习来为MER带来好处。与MER中现有的深度学习方法侧重于学习表情共享特征不同,我们的方法旨在通过表情特征学习和融合来学习一组表情精化特征。本文的贡献是,提出了一个新颖的特征提纯方法,一个表达能力较强的特征学习与融合的方法,用于微表情识别。原创 2024-02-03 11:39:02 · 767 阅读 · 0 评论 -
基于深度学习的视觉目标跟踪进展综述
尽管以上的双路网络方法在视频目标跟踪中取得了很大的成功,但是仍然存在缺陷,缺少在线更新过程.MemTrack、Meta-Tracker、Re2EMA、UpdateNet和GradNet等, 提出了不同的模板更新算法。双路网络框架(SiamFC),此方法利用卷积网络提取目标模板和搜索区域的特征,然后再进性相关操作生成响应图,其中响应图上的峰值点就是目标所在的位置。深度学习提取特征的特点是,高层的语义特征对于目标的抽象表达能力很强,而低层的模型特征擅长刻画目标的纹理、形状等底层信息.。原创 2023-11-28 16:00:14 · 380 阅读 · 0 评论 -
Micro-expression recognition: an updated review of current trends,challenges and solutions 论文笔记
一篇微表情识别的综述阅读笔记原创 2022-11-16 22:26:24 · 602 阅读 · 2 评论 -
GaitSet: Cross-view Gait Recognition through Utilizing Gait as a Deep Set 阅读笔记
发表在PAMI上的一篇文章,复旦的团队做了工作。目录摘要:1 INTRODUCTION 简介2 RELATED WORKS 相关研究2.1 Gait Recognition 步态识别2.2 Deep Learning on an Unordered Set 深度学习在非序列集合上的应用3 GAITSET 提出的方法3.1 Problem Formulation 问题公式化3.2 Set Pooling 集合池化3.3 Horizontal Pyramid Mappin原创 2022-02-17 11:38:52 · 2749 阅读 · 0 评论 -
Deep Gait Recognition: A Survey 阅读笔记
摘要:Deep learning has reshaped the research landscape in this area since 2015 through the ability to automatically learn discriminative representations.深度学习引入步态识别是2015年,好处是可自动学习具有高可辨识性的表征。1.Introduction 简介Gait information can be captured using...原创 2022-02-12 17:51:37 · 2859 阅读 · 0 评论 -
《机器视觉表面缺陷检测综述》论文解读
最近在搞工业检测的项目,看到一篇表面缺陷检测的综述文章。论文发表在《中国图像图形学报》,介绍的较为全面,对主要内容作了摘抄和整理,分享给大家0.引言美国机器人工业协会(RIA)对机器视觉下的定义为:“机器视觉是通过光学的装置和非接触的传感器自动地接收和处理一个真实物体的图像,以获得所需信息或用于控制机器人运动的装置”。机器视觉检测系统通过适当的光源和图像传感器(CCD 摄像机)获取产品的表面图像,利用相应的图像处理算法提取图像的特征信息,然后根据特征信息进行表面缺陷的定位、识别、分级等判别和统计、存储原创 2021-04-09 17:13:08 · 2377 阅读 · 1 评论