多模态言语评估-(工作准备)

机器学习方法

特征工程

类别标签:直接分类。。算精准率,召回率,f1
流畅度:流畅, 不流畅
语调:过起伏, 过平缓,适中
音量: 过大, 过小, 正常
语速: 过快, 过慢,适中
紧张:紧张,不紧张。。

实际关注召回率:

召回率:针对我们实际样本而言,为正的样本中,有多少预测正确了。。recall = TP/(TP + FN)
精确率(precision):针对预测结果而言,预测为正的样本中,实际有多少为正。。
precision = TP/(TP + FP)

帮学员发现有问题的,尽可能多的识别出来。。

分数类别:算相邻一致率。。

流畅度: 从静默、停顿字眼、持续时间,频率几个方面来提特征。 如: 静默次数、平均静默持续时间、静默时间超过0.5s的频率,停顿字眼出现的次数(参考口语顺滑方向)(嗯,啊,额,mmm等语气词,重叠词,重复说的,),子句在整个过程中,静默以及不流畅的频率。最终提取了7维的特征,标准化(均值方差归一)(比简单大数小数归一化靠谱)
语调: 韵律特征如:基频、过零率、音高(主观,对频率的感受)、HNR(谐噪比,评价音质的一个标准)、SNR(信噪比)、7维特征。
音量:声强(分贝、声音强弱,客观)、响度值(主观感受,和频率也有关),音高,短时平均能量、短时平均幅度、7维特征。
语速:主要从速度方面外加上流畅度的特征,单位时间平均文字个数,平均每个字所用的时间,子句中,语速超过2.5的的句子个数,低于1.5的个数;外加 7维
紧张情绪:MFCC+ 别的所有, 5+ 28 = 33维。

lightgbm:可用于排序,分类,回归等任务中,速度提升10倍,内存占用下降3倍。 xgboost: 训练耗时长,

lightgbm: 基于决策树算法,leaf-wise,别的提升算法,一般用deep-wise

AdaBoost: 基于Boosting (Adaptive Boosting, 自适应增强学习)
(统计学习方法,第8章)
https://www.cnblogs.com/ScorpioLu/p/8295990.html
https://blog.csdn.net/fuqiuai/article/details/79482487
每个样本的权重,用于loss损失计算)
1)改变样本的概率分布,提高错误分类样本的权值,减小正确分类样本的权值,然后用同样的机器学习算法训练。(每个弱分类器学到不同的参数,最优)
2)加大误差率小的弱分类器权重,减小误差率大的弱分类器权重。(确定分类器的参数) 权重求解公式:
在这里插入图片描述
AdaBoost(Boosting框架 + 任意的学习器 + 指数损失函数)
用途: 可以用来二分类和多分类,分类精度很高。可以用来特征选择。
手推AdaBoost, 从loss推出 弱分类器权重更新的公式,
不同损失函数,机器学习方法的效果区别。

GBDT:(Gradient Boostinig Decision Tree), 也是采用Boosting,与AdaBoost不同的是,弱学习器只能使用CART回归树模型,
(Boosting框架 + CART回归树模型 + 任意损失函数) 求解每棵树的参数,以及树的个数。
对于损失函数,采用 负梯度拟合,方便优化,最速下降, 损失函数中,求导,再取负,求解参数(无论分类或回归问题,都可以解决)
在这里插入图片描述
对于分类问题:损失函数一般使用 对数损失函数(逻辑回归,分二元和多元) 和 指数损失函数(相当于Adaboost)。
在这里插入图片描述
在这里插入图片描述
对于回归问题:损失函数有:均方差, 绝对损失, huber损失(均方差和绝对损失的折中产物),

正则化 防止过拟合。
1)弱分类器权重,可以防止过拟合。
2)子采样,只取一部分数据去训练,可以减小方差,防止过拟合(预测结果很稳定),比例不能太低,否则会增加样本拟合的偏差(准确率降低,预测结果与实际结果差距增大)。(这时的模型叫做,随机梯度提升树(SGBT))
3)对树进行剪枝。

XGBoost (eXtreme Gradient Boosting, 极端梯度提升) 一种tree boosting的可扩展机器学习系统,在Gradient Boosting框架下实现机器学习算法,优化的分布式梯度增强库。

比起GBDT的优化地方:
1)基础分类器有好多选项,CART,线性,
2)代价函数二阶泰勒展开,用到一阶和二阶,可以自定义代价函数,只要可导。
3)加入了正则化项,
提供了 并行树提升, 相同的代码可以在分布式环境运行,

运行速度快好多倍,占用内存小,支持分布式,利用核外计算,一个主机上处理数十亿的样本数据

创新点:
1)新颖的处理稀疏数据的树学习算法
2)weighted quantile sketch(可并行的分布式加权直方图)过程,在近似树学习中处理实例权重。 将连续特征分桶,
3)稀疏感知(sparsity-aware)算法裂变发现,用于并行树学习,学习速度快。自动学习空缺值的裂变方向。
4)缓存感知块结构,用于核外树学习。

ensemble model:样本预测的输出为几个模型输出结果的累加。
在这里插入图片描述
https://www.jianshu.com/p/ac1c12f3fba1
在这里插入图片描述
XGBoost用到了二阶导,只用一阶导,无法保证找到的是全局最优。用牛顿法进行梯度更新(没用随机梯度下降)。

分裂准则,直接与损失函数挂钩, 利用推导得到的表达式,作为分裂准则,来构建每一棵树。
在这里插入图片描述
决策树最耗时的步骤,就是对特征值进行排序,确定最佳分割点。
xgboost的并行: 在特征层面,各个特征的增益计算,可以开多线程进行,保存block结构,可以重复使用。 高效生成候选分割点的 可并行的近似直方图算法。

利用cpu多线程,加了剪枝,
https://blog.csdn.net/yinyu19950811/article/details/81079192

LightGBM:
和XGBoost的区别:
1)采用leaf-wise的策略,从当前所有叶子中找到分裂增益最大的叶子,进行分裂,深度容易比较深,要限制深度。
xgboost是采用level-wise,同一层的叶子都分裂,有些增益较低,没必要,浪费。
在这里插入图片描述
2)lightgbm采用 直方图离散统计,寻找最优分割点, 直方图做差加速(一个叶子的直方图由父节点的直方图和它兄弟的直方图做差得到)。

xgboost是层级的,level-wise, 每一层都动态构建直方图; lightgbm是对feature的,每个feature都有一个直方图,一个保存一直用。

比起XGBoost的优势:
运行速度更快(分桶,只需要遍历桶)
内存消耗更低(直方图算法分桶,只保存离散化后的值)

Random Forest

随机森林 和 GBDT 一样,经常被使用的, 并且有很好的效果。

https://blog.csdn.net/qq_34106574/article/details/82016442 (随机森林)

随机森林采用Bagging的思想。 每颗决策树都是一个分类器, 对于一个输入样本, N棵树就会有N个分类结果。 随机森林集成所有分类的投票结果, 将 投票次数最多的类别作为最终的输出。。

随机:
(1)随机的(有放回的)抽取样本。
(2)每个样本的特征维度为M, 指定一个常数m, m << M, 随机的从M个特征中,选取m个特征子集,每次节点分裂时,从这m个特征中选择最优的。

每棵树尽最大程度的生长,没有剪枝的过程。
两个随机性, 使模型不容易过拟合, 并且具有很好的抗噪能力(对缺省值不敏感)

重要参数

RF框架的参数:
n_estimators: 决策树的个数,进行有放回抽样生成的子数据集的个数,
boostrap:是否对样本进行有放回的抽样。
oob_score: 是否使用袋外样本来评估模型的好坏。

RF决策树参数:(实际就是对决策树调优)
criterion(节点划分标准):

Bagging

对于每个单模型的训练集, 随机、有放回的 从训练集中抽取N个训练样本,(每棵树的训练集是不同的, )

深度学习方法

(参考论文: Multimodal Sentiment Analysis with Word-Level Fusion and Reinforcement Learning)

数据对齐

P2FA软件工具,SPPAS(两种对齐工具)

特征

文本用词向量 300维的向量(词向量相关的都要看看了),
语音用 MFCC(12 Mel-frequency cepstral coefcients) 和其它5个特征。

网络结构

GRU + attention(LSTM 换成GRU)

GME: 一个hidden layer + sigmoid激活

audio音频特征,经过一个wx+b计算,sigmoid激活,得到一个概率,然后再与本身向量相乘。。。 相当于特征本身 按一定比例输入。。

文本特征v 处理方式,和上面一样。。

输入到lstm/ gru中每个序列的向量, 除了上面两个, 还有一个随机的权重向量。xw。。 从而实现门机制的多模态融合。。。
在这里插入图片描述
在这里插入图片描述
GRU+attention: 每一时刻,经过GRU结构,输出h;利用soft attention,求取每一时刻的权值alpha, 最后所有时刻的输出h和对应权值求和,得出最终的预测。

分类损失函数:交叉熵,
回归损失函数: MAE
优化器: Adam,
学习率: 0.0001

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值