机器学习中各种平均数的应用(调和平均数,算术平均数,几何平均数等)

郭岂凡

于 2024-09-10 23:31:06 发布

阅读量1.5k

点赞数 22

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/2302_78964455/article/details/142111645

版权

一.算术平均数(Arithmetic Mean)

二.几何平均数(Geometric Mean)

三.调和平均数(Harmonic Mean)

四.加权平均数 (Weighted Mean)

五.中位数(Median)

六.模式(Mode)

七.剪枝平均数(Trimmed Mean)

八.均方平均数(Root Mean Square, RMS)

一.算术平均数(Arithmetic Mean)

$\text{Arithmetic Mean} = \frac{1}{n} \sum_{i=1}^{n} x_i$

模型性能评估: 算术平均数广泛用于计算多个模型评估指标的平均值，如准确率、精度、召回率等。在交叉验证中，算术平均数用于计算多个验证集上的平均性能。
损失函数的计算: 在许多机器学习算法中，损失函数是通过计算预测值与真实值之间差异的平均值来定义的，如均方误差（MSE）就是预测误差的平方的算术平均。
特征缩放: 在一些特征工程过程中，算术平均数用于归一化或标准化特征，例如在Z-score标准化中，特征减去其均值后再除以标准差。

二.几何平均数(Geometric Mean)

$\text{Geometric Mean} = \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}}$

不平衡数据集: 几何平均数在处理类别不平衡问题时非常有用，尤其是在二分类问题中，它用于综合精度和召回率，产生对极端值（如特别高或特别低的精度或召回率）更为鲁棒的衡量指标。
组合多个模型的性能: 在集成学习（如随机森林）中，几何平均数可用于结合多个基学习器的预测，尤其是在模型输出为概率或比率时。
增长率计算: 几何平均数常用于计算复合年增长率（CAGR）或其他增长率指标，以衡量模型在不同时间段的性能。

三.调和平均数(Harmonic Mean)

$\text{Harmonic Mean} = \frac{n}{\sum_{i=1}^{n} \frac{1}{x_i}}$

F1分数: 调和平均数最著名的应用之一是在计算F1分数时，它结合了精度（Precision）和召回率（Recall），并在两者之间进行平衡，避免极端值的影响。F1分数在评估分类器性能时尤其重要，特别是在不平衡数据集上。
速率型指标: 在需要处理速率或比例的情境下，调和平均数是理想的选择，如在多模型结合时处理反向速率（如错误率）等。

四.加权平均数 (Weighted Mean)

$\text{Weighted Mean} = \frac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i}$

特征选择: 在特征选择过程中，加权平均数用于结合不同特征的重要性得分，从而选择最有影响力的特征。
模型集成: 在集成模型（如加权投票或加权平均法）中，给不同模型的输出赋予不同权重，再通过加权平均数得到最终预测值。
衡量指标: 在处理不平衡数据集时，通过加权平均计算不同类别的性能指标，避免类别不平衡对最终结果的偏差。

五.中位数(Median)

定义: 若数据集 $X = \{x_1, x_2, \ldots, x_n\}$ 按升序排列，若 $n$ 为奇数，中位数为中间的值；若 $n$ 为偶数，中位数为中间两个值的平均数

$\text{Median} = \begin{cases} x_{\frac{n+1}{2}} & \text{if } n \text{ is odd} \\ \frac{x_{\frac{n}{2}} + x_{\frac{n}{2} + 1}}{2} & \text{if } n \text{ is even} \end{cases}$

抗噪性: 中位数在处理含有噪声或异常值的数据时非常有用，因为它不像算术平均数那样受极端值的影响。例如，决策树中使用中位数来分割数据时可以提高模型的鲁棒性。
模型性能评估: 在对模型的多次运行或交叉验证结果进行评估时，中位数可以提供比算术平均更稳健的性能衡量，特别是当评估结果存在极端值时。