多模态言语评估-(工作准备)

最新推荐文章于 2024-11-01 20:24:22 发布

William张

最新推荐文章于 2024-11-01 20:24:22 发布

阅读量1.1k

点赞数

分类专栏：项目整理

本文链接：https://blog.csdn.net/MrWilliamVs/article/details/94383858

版权

项目整理专栏收录该内容

6 篇文章

订阅专栏

本文探讨了机器学习中的特征工程、模型评估指标如精准率和召回率，并深入解析了lightgbm、XGBoost、GBDT、AdaBoost等算法的特点及应用。同时，文章对比了这些模型在运行速度、内存消耗、并行处理等方面的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习方法

特征工程

类别标签：直接分类。。算精准率，召回率，f1
流畅度：流畅，不流畅
语调：过起伏，过平缓，适中
音量：过大，过小，正常
语速：过快，过慢，适中
紧张：紧张，不紧张。。

实际关注召回率：

召回率：针对我们实际样本而言，为正的样本中，有多少预测正确了。。recall = TP/（TP + FN）
精确率（precision）：针对预测结果而言，预测为正的样本中，实际有多少为正。。
precision = TP/（TP + FP）

帮学员发现有问题的，尽可能多的识别出来。。

分数类别：算相邻一致率。。

流畅度：从静默、停顿字眼、持续时间，频率几个方面来提特征。如：静默次数、平均静默持续时间、静默时间超过0.5s的频率，停顿字眼出现的次数(参考口语顺滑方向)(嗯，啊，额，mmm等语气词，重叠词，重复说的，)，子句在整个过程中，静默以及不流畅的频率。最终提取了7维的特征，标准化（均值方差归一）(比简单大数小数归一化靠谱)。
语调： 韵律特征如：基频、过零率、音高(主观，对频率的感受)、HNR(谐噪比,评价音质的一个标准)、SNR(信噪比)、7维特征。
音量：声强(分贝、声音强弱，客观)、响度值(主观感受，和频率也有关)，音高，短时平均能量、短时平均幅度、7维特征。
语速：主要从速度方面外加上流畅度的特征，单位时间平均文字个数，平均每个字所用的时间，子句中，语速超过2.5的的句子个数，低于1.5的个数；外加 7维
紧张情绪：MFCC+ 别的所有， 5+ 28 = 33维。

lightgbm：可用于排序，分类，回归等任务中，速度提升10倍，内存占用下降3倍。 xgboost: 训练耗时长，

lightgbm: 基于决策树算法，leaf-wise，别的提升算法，一般用deep-wise

AdaBoost: 基于Boosting （Adaptive Boosting, 自适应增强学习）
(统计学习方法，第8章）
https://www.cnblogs.com/ScorpioLu/p/8295990.html
https://blog.csdn.net/fuqiuai/article/details/79482487
（每个样本的权重，用于loss损失计算）
1）改变样本的概率分布，提高错误分类样本的权值，减小正确分类样本的权值，然后用同样的机器学习算法训练。（每个弱分类器学到不同的参数，最优）
2）加大误差率小的弱分类器权重，减小误差率大的弱分类器权重。(确定分类器的参数) 权重求解公式：
在这里插入图片描述
AdaBoost(Boosting框架 + 任意的学习器 + 指数损失函数)
用途：可以用来二分类和多分类，分类精度很高。可以用来特征选择。
手推AdaBoost，从loss推出弱分类器权重更新的公式，
不同损失函数，机器学习方法的效果区别。

GBDT：(Gradient Boostinig Decision Tree), 也是采用Boosting，与AdaBoost不同的是，弱学习器只能使用CART回归树模型，
（Boosting框架 + CART回归树模型 + 任意损失函数） 求解每棵树的参数，以及树的个数。
对于损失函数，采用 负梯度拟合，方便优化，最速下降，损失函数中，求导，再取负，求解参数（无论分类或回归问题，都可以解决)
在这里插入图片描述
对于分类问题：损失函数一般使用对数损失函数(逻辑回归，分二元和多元) 和指数损失函数(相当于Adaboost)。

对于回归问题：损失函数有：均方差，绝对损失， huber损失(均方差和绝对损失的折中产物)，

正则化 防止过拟合。
1）弱分类器权重，可以防止过拟合。
2）子采样，只取一部分数据去训练，可以减小方差，防止过拟合(预测结果很稳定)，比例不能太低，否则会增加样本拟合的偏差(准确率降低，预测结果与实际结果差距增大)。（这时的模型叫做，随机梯度提升树(SGBT)）
3)对树进行剪枝。

XGBoost （eXtreme Gradient Boosting，极端梯度提升）一种tree boosting的可扩展机器学习系统，在Gradient Boosting框架下实现机器学习算法，优化的分布式梯度增强库。

比起GBDT的优化地方：
1）基础分类器有好多选项，CART，线性，
2）代价函数二阶泰勒展开，用到一阶和二阶，可以自定义代价函数，只要可导。
3）加入了正则化项，
提供了并行树提升, 相同的代码可以在分布式环境运行，

运行速度快好多倍，占用内存小，支持分布式，利用核外计算，一个主机上处理数十亿的样本数据

创新点：
1）新颖的处理稀疏数据的树学习算法
2）weighted quantile sketch(可并行的分布式加权直方图)过程，在近似树学习中处理实例权重。将连续特征分桶，
3）稀疏感知(sparsity-aware)算法裂变发现，用于并行树学习，学习速度快。自动学习空缺值的裂变方向。
4）缓存感知块结构，用于核外树学习。

ensemble model：样本预测的输出为几个模型输出结果的累加。
在这里插入图片描述
https://www.jianshu.com/p/ac1c12f3fba1

XGBoost用到了二阶导，只用一阶导，无法保证找到的是全局最优。用牛顿法进行梯度更新(没用随机梯度下降)。

分裂准则，直接与损失函数挂钩， 利用推导得到的表达式，作为分裂准则，来构建每一棵树。
在这里插入图片描述
决策树最耗时的步骤，就是对特征值进行排序，确定最佳分割点。
xgboost的并行： 在特征层面，各个特征的增益计算，可以开多线程进行，保存block结构，可以重复使用。高效生成候选分割点的可并行的近似直方图算法。

利用cpu多线程，加了剪枝，
https://blog.csdn.net/yinyu19950811/article/details/81079192

LightGBM：
和XGBoost的区别：
1）采用leaf-wise的策略，从当前所有叶子中找到分裂增益最大的叶子，进行分裂，深度容易比较深，要限制深度。
xgboost是采用level-wise，同一层的叶子都分裂，有些增益较低，没必要，浪费。
在这里插入图片描述
2）lightgbm采用直方图离散统计，寻找最优分割点，直方图做差加速(一个叶子的直方图由父节点的直方图和它兄弟的直方图做差得到)。

xgboost是层级的，level-wise，每一层都动态构建直方图； lightgbm是对feature的，每个feature都有一个直方图，一个保存一直用。

比起XGBoost的优势：
运行速度更快(分桶，只需要遍历桶)
内存消耗更低(直方图算法分桶，只保存离散化后的值)

Random Forest

随机森林和 GBDT 一样，经常被使用的，并且有很好的效果。

https://blog.csdn.net/qq_34106574/article/details/82016442 （随机森林）

随机森林采用Bagging的思想。每颗决策树都是一个分类器，对于一个输入样本， N棵树就会有N个分类结果。随机森林集成所有分类的投票结果，将投票次数最多的类别作为最终的输出。。

随机：
（1）随机的（有放回的）抽取样本。
（2）每个样本的特征维度为M，指定一个常数m， m << M, 随机的从M个特征中，选取m个特征子集，每次节点分裂时，从这m个特征中选择最优的。

每棵树尽最大程度的生长，没有剪枝的过程。
两个随机性，使模型不容易过拟合，并且具有很好的抗噪能力(对缺省值不敏感)

重要参数

RF框架的参数：
n_estimators: 决策树的个数，进行有放回抽样生成的子数据集的个数，
boostrap：是否对样本进行有放回的抽样。
oob_score：是否使用袋外样本来评估模型的好坏。

RF决策树参数：(实际就是对决策树调优)
criterion(节点划分标准)：

Bagging

对于每个单模型的训练集， 随机、有放回的 从训练集中抽取N个训练样本，(每棵树的训练集是不同的， )

深度学习方法

（参考论文： Multimodal Sentiment Analysis with Word-Level Fusion and Reinforcement Learning）

数据对齐

P2FA软件工具，SPPAS（两种对齐工具）

特征

文本用词向量 300维的向量(词向量相关的都要看看了)，
语音用 MFCC(12 Mel-frequency cepstral coefcients) 和其它5个特征。

网络结构

GRU + attention(LSTM 换成GRU)

GME：一个hidden layer + sigmoid激活

audio音频特征，经过一个wx+b计算，sigmoid激活，得到一个概率，然后再与本身向量相乘。。。相当于特征本身按一定比例输入。。

文本特征v 处理方式，和上面一样。。

输入到lstm/ gru中每个序列的向量，除了上面两个，还有一个随机的权重向量。xw。。从而实现门机制的多模态融合。。。
在这里插入图片描述

GRU+attention：每一时刻，经过GRU结构，输出h；利用soft attention，求取每一时刻的权值alpha，最后所有时刻的输出h和对应权值求和，得出最终的预测。