均值(mean)
均值的意义:
均值提供了数据的中心值,能够反映数据的整体趋势
标准差(std)
意义:
标准差是衡量数据的分散程度,它表示数据点平均离开平均值有多远。
68-95-99.7 规则: 在正态分布中,标准差有一个特别重要的性质,通常被称为 68-95-99.7 规则:
- 约68%的数据落在平均值正负一个标准差的范围内。
- 约95%的数据落在平均值正负两个标准差的范围内。
- 约99.7%的数据落在平均值正负三个标准差的范围内。
概率密度函数的形状:标准差决定了正态分布曲线的"宽度"或"陡峭程度"。
- 较小的标准差会产生一个较窄且高的分布曲线。说明数据比较集中在均值附近
- 较大的标准差会产生一个较宽且矮的分布曲线。说明数据比较散乱
标准化 (Normalization)
定义:
标准化是将数据通过减去均值并除以标准差的方式进行转换,使数据具有零均值和单位方差(标准差为1)。
意义:
将给定数据与目标数据的分布对齐
标准化的目的是消除数据的量纲差异,使不同特征在同一个尺度上进行比较,从而更好地适应模型的训练过程。标准化后的数据具有零均值和单位标准差,使得模型能够更快收敛。
信噪比 (Signal-to-Noise Ratio, SNR)
计算:
通常计算为特征的均值与标准差的比值
意义:
信噪比是数据中的信号与噪声的比值,表示某个特征中有用信息(信号)与无用信息(噪声)的比例。
信噪比越高,表示该样本含有更多的信息量,该样本比其他样本更重要
信噪比的值:
- 信噪比大于1:特征在目标样本中表现显著,具有较好的区分能力和稳定性。
- 信噪比小于1:特征的表现不够显著,不适合用于分析或建模。