哈尔滨张谦蛋-CSDN博客

原创微表情检测（四）----SL-Swin

结果表明，我们的方法在MEGC 2022和MEGC 2021的定位任务上具有很强的性能，表明我们的方法在准确识别小型数据集中的表情方面具有潜力，并突显了我们的方法在大规模标记的表情数据集不容易获得的情况下的实用性。详细检查CAS(ME)3数据集的结果，我们的方法在召回率上更高，而精确率较低。与仅使用Swin Transformer背景的小型版本而没有SPT和LSA的方法相比，表中标记为Swin-T，我们的方法（SL-Swin-T）在所有指标上都表现更好，这表明SPT和LSA的应用提高了模型的泛化能力。

2023-12-12 22:30:40 1486

原创微表情检测（三）----基于光流特征的微表情检测

基于光流特征的微表情检测Abstract本文提出了一种高精度和可解释性的自动微表情检测方法。首先，我们设计了基于鼻尖位置的图像对齐方法，以消除由头部晃动引起的全局位移。其次，根据面部编码系统（FACS）中的动作单元定义，我们选择了十四个感兴趣区域（ROI）来捕捉微妙的面部运动。引入了密集光流来估计ROI的局部运动和时域变化。第三，我们设计了一种峰值检测方法，用于在时域变化曲线上精确定位运动间隔。最后，我们提出了一个重叠指数来衡量不同器官变化的一致性。

2023-12-09 18:50:22 1793 2

原创 Question 1----dlib问题

复现代码时，在环境里边导入dlib包时一直出现setup.py运行失败，查找网上一些解决方法，使用whl文件本地导入仍然不能解决，通过向。首先需要先安装两个库：（已经安装好了VS或者pycharm）问题成功解决，欢迎提供其他解决方案！

2023-12-08 15:32:29 583

原创微表情检测（二）----SOFTNet（二）代码

【代码】微表情检测（二）----SOFTNet（二）代码。

2023-12-07 19:22:42 473

原创微表情检测（二）----SOFTNet论文总结

面部表情从明显的到微妙的都有所变化。近年来，对微表情进行分析，即由于抑制真实情感而产生的自然表达，引起了研究人员的广泛关注，具有广泛的潜在应用。然而，在与正常或宏表情交织在一起的情况下，识别视频中的微表情变得越来越具有挑战性。在本文中，我们提出了一种浅层光流三流卷积神经网络（SOFTNet）模型，用于预测一个捕捉帧可能处于表情间隔的概率的分数。通过将定位任务构建为回归问题，我们引入了伪标签以促进学习过程。

2023-12-07 15:09:34 1686

原创微表情检测（一）----LGAttNet论文总结

微表情识别之前需要先进行微表情的检测。我们提出了一种基于双重注意力网络的微表情检测架构，称为LGAttNet。LGAttNet是第一个利用与二维卷积神经网络组合的双重注意力网络执行逐帧自动微表情检测的方法之一。该方法将特征提取和增强任务分为两个不同的卷积神经网络模块：稀疏模块和特征增强模块。另一个关键模块是注意力网络，它提取局部和全局的面部特征，即局部注意力模块和全局注意力模块。该注意机制采用了人类专注于微动作特定区域的特征，

2023-12-05 14:03:51 1373

原创深度学习之图像分类（十五）DINAT: Dilated Neighborhood Attention Transformer理论精简摘要（二）

局部注意力机制：例如滑动窗口Neighborhood Attention（NA）或Swin Transformer的Shifted Window Self Attention。优点：尽管在降低自注意力二次复杂性方面表现出色，缺点：但是局部注意力削弱了自注意力的两个最理想的属性：长程相互依赖建模和全局感受野。在本文中，我们引入了（DiNA），这是对NA的一种自然、灵活且高效的扩展，可以在不增加额外成本的情况下捕获更多的全局上下文并指数级地扩展感受野。

2023-11-28 14:50:50 1774

原创深度学习之图像分类（十五）DINAT: Dilated Neighborhood Attention Transformer详解（一）

Transformers 迅速成为跨模态、领域和任务中应用最广泛的深度学习架构之一。在视觉领域，除了对普通Transformer的持续努力外，分层Transformer也因其性能和易于集成到现有框架中而受到重视。这些模型通常采用局部注意力机制，例如滑动窗口Neighborhood Attention（NA）或Swin Transformer的Shifted Window Self Attention。

2023-11-27 22:40:39 1907

原创深度学习之图像分类（十四）CAT: Cross Attention in Vision Transformer详解

由于Transformer在自然语言处理（NLP）中得到了广泛应用，人们已经意识到Transformer在计算机视觉（CV）中的潜力，并且已经激发了许多新的方法。然而，在图像进行标记后，用图像块替换单词标记所需的计算量（例如，ViT）非常庞大，这成为模型训练和推理的瓶颈。在本文中，我们提出了一种新的Transformer中的注意机制，称为交叉注意力（Cross Attention），该机制在图像块内部而不是整个图像中进行交替注意以捕捉局部信息并在从单通道特征图中分割的图像块之间应用注意力以捕捉全局信息。

2023-11-25 14:54:34 2972

原创深度学习之图像分类（十三）Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解（三）

这里的高和宽的乘积是patch的个数，56x56个4x4的patch，下采样2x之后维度增加四倍，liner projection只是维度增加2倍，变为28x28x2C，这里的patch数目由56x56变为28x28，patch数目减小，但是patch的尺寸增加由4x4变为8x8，这里的维度C和patch_size的大小是没有关系的，这样之后输出的窗口尺度发生了变化。接下来忽略除以以及softmax的计算量，假设得到Λhw×hw，最后还要乘以V，对应的计算量为 (hw)^2C。

2023-11-25 14:37:31 950

原创深度学习之图像分类（十三）Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解（二）

文章提出一个新的结构叫swin transformer,可以作为计算机视觉的通用骨干。将transformer从语言实体应用到视觉实体中存在挑战：1、视觉实体的尺度变化较大，需要能够融合多尺度信息，但是ViT的stage尺度是固定的，2、图像中的像素是高分辨率的，形成的token往往具有很大的维度，通常计算代价和输入图像的分辨率成平方比，带来巨大的计算代价；

2023-11-24 23:57:33 1112

原创深度学习之图像分类（十三）Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解（一）

在这次移位后，一个批处理窗口可能由几个在特征图中不相邻的子窗口组成，因此采用了屏蔽机制，将自注意力计算限制在每个子窗口内。为了在保持非重叠窗口的高效计算的同时引入跨窗口连接，我们提出了一种移动窗口分区方法，该方法在连续的。基于偏移窗口的自注意力在视觉问题上表现出了有效和高效的特性，我们期待进一步研究它在自然语言处理中的应用。移位窗口方案通过将自注意力计算限制在非重叠的局部窗口内，同时允许窗口之间的交叉连接，从而提高了效率。通用骨干（不仅仅在分类识别的任务上有好的结果，在目标检测和语义分割都有好的结果）

2023-11-24 23:12:29 1147

原创机器学习之自监督学习（五）MAE翻译与总结（二）

，因为有标签的数据集需要大量的人工去进行标注，需要非常高的人工成本，但是无标签的数据在网络上到处可见，通过爬取的方式也便于收集。在编码过程中，编码器会强制模型通过学习来去除输入数据中的噪声，使得编码的特征表示尽可能干净和有用。第一个阶段不涉及任何的下游任务，就是拿着一堆无标签的数据去训练我们的网络，没有设定特定的任务。而想象出它的样子来。）是一种神经网络模型，旨在从包含噪声的输入数据中学习干净的、有用的特征表示。，去噪自动编码器是一类自动编码器，它破坏输入信号，并学会重构原始的、未被破坏的信号。

2023-11-23 15:23:01 163

原创机器学习之自监督学习（五）MAE翻译与总结（一）

一个合理深的解码器可以弥补重建专业化在识别方面的不足，将潜在表示留在更抽象的层次上。线性分类层，然后在特定数据集上进行微调，端到端就是在特定数据集上可以通过训练修改模型参数，线性探测是仅仅在特定数据集上训练最后的线性分类层。这个编码器的输入中有很大一部分是掩模标记，而在未被损坏的图像中不存在这些掩模标记。我们的方法包括一个编码器，将观察到的信号映射到潜在表示，以及一个解码器，从潜在表示和掩模标记中重建原始信号。图像只是记录的光线，没有将其分解成视觉上的单词的语义。对于线性探测来说，足够深的解码器非常重要（

2023-11-23 15:00:11 558

原创机器学习之自监督学习（四）MoCo系列翻译与总结（二）

它的主要目标是通过去除输入数据中的噪声，学习到输入数据的有用表示，从而提高模型对干净数据的鲁棒性。是一种自动编码器的变体，其目标是通过利用上下文信息，即与输入数据相关的周围环境或上下文，来学习更具意义和上下文感知的表示。是一种自动编码器的变体，其目标是通过考虑输入数据在通道（channel）维度上的关系，学习更具有跨通道相关性的表示。- **考虑通道关系：** 在学习表示时，关注输入数据在通道维度上的相关性，以更好地捕捉跨通道信息。文本处理：上下文自动编码器可用于学习词语或句子的上下文感知表示。

2023-11-23 14:48:40 323

原创机器学习之自监督学习（四）MoCo系列翻译与总结（一）

由于字典的键来自前几个小批量，我们提出了一个缓慢前进的键编码器，实现为查询编码器的基于动量的移动平均，以维持一致性（动态一致性）。移除最先进入的小批次可能是有益的，因为它的编码键是最过时的，因此与最新的编码键一致性最差。，表明：有监督训练的特征分布和无监督训练的特征分布是存在很大的差距的。（最近的关于对比学习的研究主要表现在动态字典的构建方面。的固定字典大小的限制都成为这两个模型在大的数据上扩展的阻碍。预训练任务和损失函数（代理任务的选择以及损失函数的构建）有趣的是，迁移的准确性取决于检测器的结构。

2023-11-23 14:14:29 662

原创机器学习之自监督学习（三）BeiT-视觉BERT预训练模型翻译与总结

待补充。

2023-11-23 14:13:28 67

原创机器学习之自监督学习（二）SimCLR翻译与总结

待补充。

2023-11-23 14:12:16 46

原创机器学习之自监督（一）大规模预训练BERT翻译与总结

待补充。

2023-11-23 14:08:07 43

原创机器学习---模型选择---偏差和方差

标．在实际训练一个模型 𝑓(𝒙) 时，训练集 𝒟 是从真实分布 𝑝𝑟(𝒙, 𝑦) 上独立同分采样出来的有限样本集合．不同的训练集会得到不同的模型．令 𝑓𝒟(𝒙) 表示在训练集𝒟 上学习到的模型，一个机器学习算法（包括模型以及优化算法）的能力可以用不同训练集上的模型的平均性能来评价．。则 ℛ(𝑓)= 𝔼𝒙∼𝑝𝑟(𝒙)[(𝑓(𝒙) − 𝑓∗(𝒙))2]+ 𝔼(𝒙,𝑦)∼𝑝𝑟(𝒙,𝑦)[(𝑦 − 𝑓∗(𝒙))2]：模型方差衡量的是模型在不同的训练数据集上预测的变化程度。

2023-11-14 11:41:41 173 1

原创机器学习公式推导系列（二）线性分类

2023-10-31 17:39:06 45 1

原创深度学习之图像分类（十二）Masked Autoencoders Are Scalable Vision Learners（MAE）详解

本文表明，掩蔽自动编码器（MAE）是一种可扩展的计算机视觉自监督学习器。我们的MAE方法很简单：我们屏蔽输入图像的随机patch，并重建缺失的像素。它基于两个核心设计。首先，我们开发了一种非对称编码器——解码器架构，编码器仅对patch的可见子集（没有掩模标记）进行操作，轻量级解码器从潜在表示和掩模标记重建原始图像。第二，我们发现掩蔽高比例的输入图像，例如75%，产生了重要且有意义的自我监督任务。耦合这两种设计使我们能够高效和有效地训练大型模型：我们加速了训练（3倍或更多）并提高了准确性。

2023-10-31 17:20:18 1754 1

原创机器学习---维度灾难

随着维度的增加，数据点之间的距离变得越来越大，导致训练集中的样本变得稀疏。这样一来，模型很容易出现过拟合的问题，因为它很难从有限的样本中准确地捕捉到数据的分布模式。维度灾难还会导致模型的泛化性能下降。由于高维空间中的数据分布复杂且稀疏，模型很难从训练集中学习到真正有用且泛化到新数据的特征。维度灾难是指在高维空间中，数据样本数量相对较少时，数据点之间的距离变得非常稀疏，导致数据分布的不均匀性增加，进而给模型的训练和泛化带来挑战。数据增强：通过合理的数据扩增技术，增加训练集中的样本数量，提高数据的多样性。

2023-10-26 23:01:48 268

原创机器学习公式推导系列（一）线性回归

2023-10-25 20:12:33 115 1

原创深度学习之生成对抗网络GAN（一）Generative Adversarial Nets/生成对抗网络（二）

1. 生成器（Generator）：生成器的任务是将随机噪声或隐变量映射为与真实数据相似的数据样本。它通常包括多层神经网络，例如多层全连接层或卷积神经网络（CNN）。生成器的输出是生成的数据。2. 判别器（Discriminator）：判别器的任务是区分真实数据与生成器生成的数据。它也是一个神经网络，通常包括多层全连接层或卷积神经网络。判别器的输出是数据样本为真实数据的概率。

2023-10-20 21:46:50 467 1

原创深度学习之生成对抗网络GAN（一）Generative Adversarial Nets/生成对抗网络（一）

我们提出了一个通过对抗过程估计生成模型的新框架，其中我们同时训练两个模型：捕获数据分布的生成模型G，以及估计样本来自训练数据而不是G的概率的判别模型D.G的训练过程是最大化D出错的概率。这个框架对应于一个minimax双人游戏。在任意函数G和D的空间中，存在唯一解，G无限逼近训练数据分布（G能够完全拟合出原始数据分布，D无法完全判别出是原始数据还是生成数据），D处处等于1/2。在G和D由多层感知器定义的情况下，可以用反向传播和梯度下降来训练整个系统。

2023-10-20 21:34:31 417 1

原创谷歌轻量化网络Mnasnet（神经架构搜索）

为移动设备设计卷积神经网络 (CNN) 具有挑战性，因为移动模型需要很小且快速并且保持准确性。尽管人们致力于设计和改进所有维度上的移动 CNN，但当需要考虑的架构可能性如此之多时，手动平衡这种权衡是非常困难的。在本文中，我们提出了一种自动移动神经架构搜索 (MNAS) 方法，该方法明确地将模型延迟合并到主要目标中，以便搜索可以识别在准确性和延迟之间取得良好权衡的模型。

2023-10-16 17:01:03 486 1

原创深度学习之图像分类（十一）MobileNetV2详解

在本文中，我们描述了一种新的移动架构MobileNetV2，它提高了移动模型在多个任务和基准测试以及不同模型大小范围内的最新性能。我们还描述了在一个我们称之为SSDLite的新框架中将这些移动模型应用于对象检测的有效方法。此外，我们演示了如何通过DeepLabv3的简化形式构建移动语义分割模型，我们称之为Mobile DeepLabv3。基于逆残差结构，其中残差链接位于薄瓶颈层之间。中间扩展层使用轻量级深度卷积来过滤作为非线性来源的特征。此外，我们发现，为了保持代表性，消除窄层中的非线性是很重要的。

2023-10-13 20:44:28 1902

原创深度学习之图像分类（十）MobileNets翻译与总结

我们提出了一类用于移动和嵌入式视觉应用的高效模型，称为MobileNets。MobileNets基于一种简化的架构，该架构使用深度可分离卷积来构建轻量级深度神经网络。我们引入了两个简单的全局超参数，它们在延迟和准确性之间进行了有效的权衡。这些超参数允许模型构建者根据问题的约束为他们的应用选择合适大小的模型。我们在资源和准确性权衡方面进行了广泛的实验，并在ImageNet分类上显示了与其他流行模型相比的强大性能。

2023-10-12 12:01:42 260 1

原创机器学习---正则化方法

模型取值范围大同样可以训练出一个泛化能力强的模型，但是出现过拟合的几率也大大提升了（可以选择的范围大，自然就选了一整套相互配合起来可以让损失最小的参数，但是这些参数有可能只是在迎合训练集）。Dropout是降低参数量，这样神经元的输入会随机的被失活，下一层神经元不会完全的依赖某一个神经元的输入，这样每个神经元的权重都会降低，这样模型的复杂度也会随之降低，这样Dropout也起到了L2正则化的作用。在损失函数之中，在尾项之中加入L2正则项，为梯度下降加入减小权重的目标，就可以在减小损失的同时减小权重。

2023-10-11 20:52:55 255

原创深度学习之图像分类（九）vision Transformer翻译与总结（二）

在大型语料库上进行训练，然后在小的数据集上应用，取得了非常不错的结果。由于的计算效率和可扩展性，随着模型和数据的增长，并未出现饱和现象。受在NLP领域的启发，一部分尝试将类似CNN的架构与Attention相结合（利用卷积神经网络子在softmax层之前所提取到的特征矩阵作为输入，将和CNN结合起来），另一些是用完全的取代CNN的功能。第二种在理论上是非常有效的，但是由于使用了专门的注意力机制，尚未在现代硬件加速器上有效地扩展，所以模型还不是很大。

2023-10-09 18:07:07 212 1

原创机器学习---归纳偏执（Inductive Bias）

No-Free-Lunch （不存在免费午餐理论）提出没有先验知识进行学习是不可能的。如果我们不对特征空间有先验假设，则所有算法的平均表现是一样的。

2023-10-09 15:59:10 407 1

原创深度学习之图像分类（九）vision Transformer翻译与总结（一）

虽然Transformer架构已经成为自然语言处理任务的事实上的标准，但它在计算机视觉上的应用仍然有限。在视觉方面，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持其整体结构不变。我们证明这种对cnn的依赖是不必要的，直接应用于图像补丁序列的纯变压器可以很好地完成图像分类任务。

2023-10-08 12:05:12 1389 1

原创深度学习之自注意力机制（self-attention）（一）Transformer总结

还是以一个词为例，假设一个词生成了一组Q，K，V后，然后Q与K与其他的Q与K计算了内积后生成了权重，权重将v向量重构成了Z向量，没有多头注意力机制，Z向量就是这个词的最后表达，如果是多头注意力机制，实际上就会生成h个Z向量。然而不同的是第一个词的q是不可以考虑后面所有词的q的影响的，单词第二个词的q需要考虑前面第一个词的影响，所有的词要考虑前面的词的影响，但是不可以考虑后面的词影响，这就是mask机制。这个起始符号的嵌入向量通常是预训练的，它会作为Decoder的初始输入，用来表示生成序列的开始。

2023-10-07 22:14:01 655 1

原创深度学习之自注意力机制（self-attention）（一）Transformer翻译

主要的序列转导模型是基于复杂的循环或卷积神经网络，包括一个编码器和一个解码器。表现最好的模型还通过注意机制连接编码器和解码器。我们提出了一个新的简单的网络架构，Transform，完全基于注意力机制，完全摒弃递归和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上更优越，同时更具并行性，并且需要更少的训练时间。我们的模型在WMT 2014英语-德语翻译任务上实现了28.4 BLEU，比现有的最佳结果(包括集合)提高了2个BLEU以上。

2023-10-07 21:33:38 162 1

原创深度学习之目标检测（一）R-CNN翻译与总结（二）

因为微调时和训练SVM时所采用的正负样本阈值不同，微调阶段正样本定义并不强调精准的位置，而SVM正样本只有Ground Truth；并且微调阶段的负样本是随机抽样的，而SVM的负样本是经过hard negative mining方法筛选的；导致在采用SoftMax会使PSACAL VOC 2007测试集上mAP从54.2%降低到50.9%。

2023-10-07 21:22:01 41

原创深度学习之目标检测（一）R-CNN翻译与总结（一）

（目标检测的传统思路发展受限）在规范的PASCAL VOC数据集上测量的对象检测性能在过去几年中已经稳定下来。性能最好的方法是复杂的集成系统，通常将多个低级图像特征与高级上下文相结合。在本文中，我们提出了一种简单且可扩展的检测算法，相对于之前在VOC 2012上的最佳结果，该算法将平均精度（mAP）提高了30%以上，实现了53.3%的mAP。我们的方法结合了两个关键见解：（1）可以将高容量卷积神经网络（CNN）（卷积神经网络替换传统的特征提取方法）应用于自下而上的区域目标，以便定位和分割对象；（2）

2023-10-07 20:49:48 105 1

空空如也

空空如也