Resnet50网络的应用—抑郁症诊断

写在前边

本人研究生阶段的研究内容为抑郁症诊断,最近一直在想搭建件简单有效的网络,提升自己编码能力的同时,推动科研的进展。本文是总结了最近两周学习的论文中,应用到Resnet_50网络的,在此进行整理和总结。欢迎相同方向的同学交流学习。

正文

相比于之前的思路,本部分选择的是三个论文,都是借助Resnet_50网络作为核心网路的,我觉得这个方向是可以进行相应的学习和研究的。


论文名称:DEPRESSION DETECTION BASED ON DEEP DISTRIBUTION LEARNING

数据集:AVEC2013、AVEC2014

创新点:本文的出发角度是很好的,解决现在部分模型中,损失函数是基于标记的面部图像,没有明确地探讨所有面部图像与抑郁水平之间的序数关系。通过对整个个体图片的完全整理,实现对所有图对相应的抑郁分数的对应,从而降低误差。

整体结构:

整体模型图如下图:

本文将抑郁症诊断问题作为分类问题处理的,整体以一个样本的所有图片作为一个样本,对应一个label。

本文提出  expectation loss 来描述抑郁分数的分布,首先针对输入的 i 个图片Xi,Yi为对应所以的label,Zi表示系统的输出抑郁症分数,计算获取概率,

为了求得分布,先计算下期望值,其中j表示label:

 

期望损失函数就可以表示为,其中M为bath_size:

实验部分:

 预处理:1>采样,AVEC2013每100帧取一帧,AVEC2014每10帧取一帧;2>人脸对齐裁剪MTCNN工具

 模型:在VGG FACE 上训练过的Resnet_50 

 评价标准 : MSE和RMS

结果:结果效果相比于之前的模型还是有很大的进步的,这也鼓励大家从整体的角度来考虑诊断的问题。

 现阶段思路的问题:实验中,作者是将一个vedio裁剪的图片一次送入到网络中吗?图片特别多,硬件不支持的问题是怎么处理的那?


论文名称:Learning content-adaptive feature pooling for facial depression recognition in videos

数据集:AVEC2014

创新点:作者发现,针对每个图片,模型认定其对最终结果的影响权重都是一样的。显然,这样是存在问题的,因为有的帧图片中的姿势、角度并不适合系统进行相应分数诊断。所以,作者借助memory attention mechanism 来对帧图片进行权重的分配,以使得效果较好的图片对结果起到主导作用。

整体结构:

从整体来看,网络是分为两部分:Resnet_50网络提取图片特征,级联的两层attention网络进行权重分配,最后的全连层输出抑郁诊断结果,网络整体结构如下图:

通过Resnet_50网络的到的特征,然后希望通过attention机制得到聚合向量h,其中\alpha表示的是权重

       \alpha的计算如下,首先通过一纬卷积核\theta ^T的卷积计算得到重要性系数c^{_{k}}将结果输入到softmax中得到相应的权重其实仔细的考虑,这获取权重的方式正是最正经的attention的应用。

由于是级联attention机制,所以两者的关系为:

最后的损失函数可以定义为:

实验结果:相比来看,结果没有一个论文的结果好。其实在再次思考论文的时候,我意识到,在之前attention机制是对一张图使用,抓住图种表达信息的关键信息,比如常见的输出人脸的哪个表达信息的图。在本文中,是将多个图看作是主体,使用attention机制选择出贡献较好的图片


论文名称:ENCODING TEMPORAL INFORMATION FOR AUTOMATIC DEPRESSION RECOGNITION

FROM FACIAL ANALYSIS
 

数据集:AVEC2013、AVEC2014

创新点:在传统双流的基础上,对时间特征的预处理做了新的处理,使用的提取高级语义特征的网络为Resnet_50网络

整体结构:

从时间和空间两个角度进行抑郁症诊断的模型从2015年首次使用抑郁症诊断就开始 了,通过看这个模型图可以感受到依旧是从双流的角度出发的,不同的是主体的网络已经不再是之前的CNN网络。本文的主要创新点在于这个时间流的特征。


其实,本文考虑的问题也是各种抑郁症诊断过程中不可避免的问题-----过拟合。 文中提出了一种新的时间池方法来捕获和编码视频剪辑的时空动态到图像地图。其实在早期的文章中,也是会通过光流图实现时间特征的提取。其实现过程如下所示:

实验:

 预处理:1>采样,AVEC2013每100帧取一帧,AVEC2014每10帧取一帧;2>人脸对齐裁剪MTCNN工具

 模型:在VGG FACE 上训练过的Resnet_50 

 评价标准 : MSE和RMS

结果:这个结果如果是真实的,那么他就是我见过的最好的结果。


总结:

这是一部分我对论文的总结,其中还是有很多自己不理解的地方。由于这些论文作者都没公开代码,所以还有一些理解上的问题。现阶段,我选择使用Resnet_50网络开始搭建网路。

  • 10
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 32
    评论
【项目介绍】 基于ResNet网络+AVEC2014数据集实现抑郁症诊断python源码+数据集+运行说明.zip ResNet网络应用抑郁症诊断 使用数据集:**AVEC2014** 数据集下载地址 <a href="https://pan.baidu.com/s/1Dt6BhVnRoTaxJ4edk0w7aQ?pwd=AVEC">AVEC2014</a> 提取码:AVEC 预处理: ​ 1.**采样**,AVEC2013每个视频取100帧,保留原始label ​ 2.**人脸对齐裁剪**,使用**MTCNN**工具 ### 文件介绍 ``` preprocess.py 主要用于预处理视频信息,从中提取帧,并在视频帧中提取人脸 函数:generate_label_file() 将运来的label合并为一个csv文件 函数:get_img() 抽取视频帧,每个视频按间隔抽取100-105帧 函数:get_face() 使用MTCNN提取人脸,并分割图片 model.py 模型的网络结构 ``` ``` load_data.py 获取图片存放路径以及将标签与之对应 writer.py 创建Tensorboard记录器,保存训练过程损失 dataset.py 继承torch.utils.Dataset,负责将数据转化为torch.utils.data.DataLoader可以处理的迭代器 train.py 模型训练 validate.py 验证模型 test.py 测试模型的性能,并记录预测分数,保存在testInfo.csv,记录了每张图片的路径,label,预测分数 main.py 模型训练入口文件 ``` ``` img 提取的视频帧文件 log Tensorboard日志文件 model_dict 训练好的模型参数文件 processed 存放预处理完成之后的人脸图片,label文件 AVEC2014 数据集存放位置 ``` ``` 查看训练日志方法: 安装tensorboard库之后,输入命令tensorboard --lofdir log_dir_path,打开命令执行后出现的网址即可 log_dir_path是存放Tensorboard日志文件的文件夹路径 ``` ``` 运行顺序:preprocess.py--->main.py--->test.py ``` 【备注】 1.项目代码均经过功能验证,确保稳定可靠运行。欢迎下载食用体验! 2.主要针对各个计算机相关专业,包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.鼓励大家基于此进行二次开发。在使用过程中,如有问题或建议,请及时沟通。 5.期待你能在项目中找到乐趣和灵感,也欢迎你的分享和反馈!
评论 32
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值