数据处理与分析技术全解析
1. 互信息与独立成分分析
互信息是衡量从一个随机变量获取另一个随机变量信息数量的指标。它可作为寻找数据投影的替代标准,基于最小化线性变换空间中数据各维度之间的互信息。假设有模型 ( s = Ax ),其中 ( A ) 是正交矩阵,( x ) 是输入数据,( s ) 是分解后的源信号。可以证明,最小化 ( s ) 各维度之间的互信息,相当于对数据进行变换,使源信号的估计概率分布 ( p(s) ) 尽可能远离高斯分布,并且估计值 ( s ) 需满足不相关的约束条件。
快速独立成分分析(Fast ICA)是一种流行的独立成分分析技术,它使用负熵 ( J(s) = H(z) - H(s) ) 这一指标,其中 ( z ) 是与 ( s ) 具有相同协方差矩阵的高斯随机变量,( H(.) ) 是“微分熵”,定义为:
[ H(x) = - \int p(x) \log p(x) dx ]
负熵用于衡量 ( s ) 的分布与高斯分布的偏离程度。Fast ICA 采用对负熵的简单近似,从而加快学习过程。
2. 线性判别分析
线性判别分析是另一种寻找数据线性变换的方法,可减少表示数据所需的维度。它常用于分类前的降维,也可直接作为分类技术使用。与主成分分析和独立成分分析不同,线性判别分析使用带标签的数据。
对于每个类别 ( c ),数据用多元高斯分布建模,其均值为 ( \mu_c ),且所有类别共享一个协方差矩阵 ( P )。由于假设每个类别的协方差矩阵相同,所以类别上的后验分布具有线性形式。对于每个类别,计算线性判别函数:
[ y_c = x^T P^{-1} \mu_c - \frac{1}{2}
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



