age estimation阅读整理(一)

Attended End-to-end Architecture for Age Estimation from Facial Expression Videos
系统整合了CNN与RNN,在时间和空间上都增加注意力模块
方法:在CNN中添加空间注意力模块,得到的embedding送入包含时间注意力模块的RNN中。
loss:MAE
数据集:UvA-NEMO Smile Database、UvA-NEMO Disgust Database
评价指标:MAE、标准差、P value of t-test
在实验中得出几个结论:相同年龄间隔下较多的样本数目有助于网络挖掘潜在特征、 眼底区域/鼻梁/法令纹/嘴周围的区域在表情变化时产生的皱纹有助于系统进行年龄估计、表情从无到有的过程包含了大量信息,而表情消失后的人脸仍然包含重要的信息、自然的表情中包含的信息相比故意做出的表情更有区分度

Deep Age Estimation Model Stabilization from Images to Videos
在实际试验中发现直接将CNN得到的特征映射到年龄上的方法在面对视频数据时缺乏稳定性,因此作者引入了注意力机制筛选CNN得到的特征。提出了一个视频数据集、一种视频数据集上的评价指标
方法:CNN特征提取 + 注意力机制
loss:MSE + 预测值与预测值的差(后者用于控制预测值的稳定性)
数据集:使用了一段二十分钟长的视频(视频中只有一个人),将其裁剪成5692个片段作为视频数据集。
训练:CNN在Morph上进行正常的回归训练。注意力模块在视频数据集上训练。
评价指标:在视频数据集上的MAE和方差

Age and Gender Recognition in the Wild with Deep Attention
方法:系统包含三个结构:attention CNN、Patch CNN、classifier。attention CNN提取原始的低分辨率图片的特征,并给出一个k * k的矩阵,物理意义为将原始图片的高分辨率版本划分为k * k格时每一格对应的注意力分数;Patch CNN提取原始图片的高分辨率版本的特征并平均池化,输出一个长度为k * k的特征向量,与attention CNN的输出矩阵flatten后merge在一起;classifier对attention CNN和Patch CNN进行处理并得到分类结果
数据集:Morph、Adience(61.8 ± 2.,95.1 ± 0.03,Adience上年龄估计未达到SOTA)、IoG(60.0,94.5,比较的方法中的最好效果)
评价指标:MAE(Morph)、accuracy(Exact、1-off)
两个结论:在年龄和性别估计任务上CNN比使用LBP的SVM的特征提取效果更好;最好的注意力加权方法为逐元素相乘、merge方法为正则化后concat

BridgeNet: A Continuity-Aware Probabilistic Network for Age Estimation
方法:提出Gating网络,通过Bridge Tree这一结构获得临近回归任务的权值,更好地进行年龄的回归预测

Soft-ranking Label Encoding for Robust Facial Age Estimation
方法:提出了soft-ranking编码方法,不同于LDL与hard-ranking,这种编码方法能够有效区分临近的特征,并且可以进行任意两个年龄的对比。同时使用patch操作(Maskout method)处理训练数据,添加五个辅助branch,挖去特征图上对应人脸的区域并正常训练,以此规范化特征提取器,减轻过拟合,测试时仅使用主branch
数据集:MORPH2(MAE:1.67(RS)、2.71(SE))、AgeDB(MA:0.581)、ChaLearn15(MAE:0.232、ε-error:0.274)
评价指标:MAE、ε-error

Age estimation via attribute-region association
方法:将原始人脸图片和人脸上的眼、鼻、嘴特写分别送入三个网络
数据集:MORPH2、FGNET、CACD
评价指标:MAE、CA

Video Age Estimation with Multiple Stacked CNN Models
方法:将0-100划分为5个年龄段,使用一个较为简单的网络将特征进行5分类,再使用较为复杂的5个网络对第一个模型结果进行20分类(这里感觉很迷,第一个网络的最后一层是softmax layer,怎么送到后面的CNN网络里的呢?)
loss:softmaxloss + center loss
数据集:在CASIA上预训练,audience、FGNET、Morph上finetune,The ICCV2016 Apparent Age Estimation Challenge上测试
评价指标:mean normalized error 

Real-Time Age and Gender Estimation from Face Images
方法:Hierarchical multi-classifier。假设有八个类别,将数据递归地划分为两个子类,使用Adaboost进行训练。
loss:Correct Classification Rate

Deep label refinement for age estimation
方法:通过一系列神经网络进行年龄的回归和年龄分布的回归任务,每一个网络都会学习前一个网络的预测结果并不断减小与gt的差异。同时作者提出了relax loss,使得每一个网络相比之前的网络预测结果都更加稳定、接近gt
数据集:IMDB-WIKI、ChaLearn15(MAE:3.052、ε-error:0.274)、MORPH2(MAE:1.905)、MegaAge-asian(CA3:64.45 CA5:82.95 CA7:91.98)
评价指标:MAE、ε-error、CA

### Mamba框架用于计算机视觉中的姿态估计 Mamba是个专注于加速机器学习和深度学习工作流程的工具集,在处理诸如人体姿态估计的任务时能够提供高效的支持。对于2D计算机视觉领域的人体姿态估计,通常涉及通过神经网络预测图像中人物的关键点位置[^1]。 #### 安装与配置 为了使用Mamba进行开发,首先需要安装该环境管理器以及必要的依赖库: ```bash conda install mamba -c conda-forge mamba create -n pose_estimation python=3.9 pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch -c nvidia ``` 这会创建个新的虚拟环境中包含PyTorch和其他所需组件来支持GPU计算能力。 #### 数据准备 在开始训练之前,准备好适当的数据集非常重要。常用的数据集如COCO keypoints dataset包含了大量标注好的图片,可用于训练模型识别不同姿势下的身体部位。 #### 模型选择与实现 针对姿态估计任务可以选择预训练过的HRNet (High-Resolution Network),它特别适合于保持高分辨率特征图从而提高定位精度。下面给出段简单的代码片段展示如何加载并微调这样个模型: ```python import torch from hrnet import HRNet # 假设已经定义好了HRNet类 model = HRNet() checkpoint = torch.load('path_to_pretrained_model.pth') model.load_state_dict(checkpoint['state_dict']) # 将模型设置为评估模式 model.eval() def predict_keypoints(image_tensor): with torch.no_grad(): output = model(image_tensor.unsqueeze(0)) return output.squeeze().cpu().numpy() # 返回预测得到的关键点坐标 ``` 上述代码展示了基于已有的HRNet架构来进行推理的过程;实际应用中可能还需要进步调整参数以适应特定需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值