机器学习笔记—独立成分分析

最新推荐文章于 2023-09-17 23:35:14 发布

dengxun7056

最新推荐文章于 2023-09-17 23:35:14 发布

阅读量153

点赞数

原文链接：http://www.cnblogs.com/NaughtyBaby/p/5433672.html

版权

本文介绍独立成分分析（ICA），同 PCA 类似，我们是要找到一个新的基来表示数据，但目的就不一样了。

鸡尾酒会问题：n 个人在一个 party 上同时说话，n 个麦克风放置在房间的不同位置，因为每个麦克风跟每个人的距离都不一样，所以它们记录的说话者重叠的声音也不一样。根据麦克风记录的声音，如何分离出 n 个说话者的声音呢？

为形式化这个问题，我们想象有一些数据 s∈R 是从 n 个独立的源生成的，我们观察到的是

x=As，

矩阵 A 是未知的，被称作混合矩阵，通过不断观察得到的是 {x⁽ⁱ⁾;=1,...,m}，我们的目标是找到生成数据（x⁽ⁱ⁾=As⁽ⁱ⁾）的源 s⁽ⁱ⁾。

在鸡尾酒问题中，s⁽ⁱ⁾ 是个 n 维向量，s_j⁽ⁱ⁾ 是讲话者 j 在时间 i 发出的声音， x⁽ⁱ⁾ 也是个 n 维向量，x_j⁽ⁱ⁾ 是麦克风 j 在时间点 i 记录的声音。

设 W=A^-1 为一个分离矩阵，我们的目标就是找到 W，这样就能根据麦克风记录的声音 x⁽ⁱ⁾，来恢复声源 s⁽ⁱ⁾=Wx⁽ⁱ⁾。为表示方便起见，使 w_i^T 表示 W 的第 i 行。

所以，w_i∈Rⁿ，第 j 个源能够通过计算 s_j⁽ⁱ⁾=w_j⁽ⁱ⁾ x⁽ⁱ⁾ 来恢复。

1、ICA 的模糊性

W=A^-1 能恢复到什么程度？如果没有源和混合矩阵的先验知识，不难看出，只给定 x，A 有一些固有的模糊性是不可能被恢复的。

设 P 为一个 n×n 的排列矩阵，这意味着 P 的每一行和每一列都只有一个 1，下面是一些排列矩阵的例子：

如果 z 是一个向量，那么 Pz 就是 z 的坐标重排版本的另一个向量。只给定 x⁽ⁱ⁾，就没办法分辨 W 和 PW。原始信号的排列也是模糊不清的，幸运的是，这对大部分应用都不重要。

还有，无法恢复 w_i 的准确比例，例如，如果 A 换成 2A，每个 s⁽ⁱ⁾ 都换成 (0.5)s⁽ⁱ⁾，那么我们观察到的依旧是 x⁽ⁱ⁾=2A·(0.5)s⁽ⁱ⁾。同样，如果 A 的一个列向量乘以因子 α，相应的源乘以因子 1/α，依然没有办法在只给定 x⁽ⁱ⁾ 的情况下决定发生了什么。所以，我们无法恢复源的准确比例。不过，对于很多应用来说，这种模糊性都无关紧要，包括鸡尾酒会问题。

这就是 ICA 中模糊性唯一的源了吗？当 s_i 是非高斯，就是这样的。

那么高斯数据的困难是什么呢，看一个例子，n=2，s~N(0,I)，其中 I 是 2×2 的单位矩阵。标准正态分布 N(0,I) 的密度的轮廓是以原点为中心的圆，密度时旋转对称的。

现在，假定我们观察到 x=As，其中 A 是混合矩阵，x 的分布也是高斯，均值为 0，协方差 E[xx^T]=E[Ass^TA^T]=AA^T。设 R 为一个任意的正交矩阵，所以 RR^T=R^TR=I，使 A'=AR，如果数据是通过 A' 而不是 A 来混合的，那么可观察到 x'=A's。x 的分布也是高斯的，均值为 0，协方差为 E[x'(x')^T]=E[A'ss^T(A')^T]=E[ARss^T(AR)^T]=ARR^TA^T=AA^T。所以，不管混合矩阵是 A 还是 A'，都能观察到数据符合 N(0,AA^T) 分布。所以，就无法分辨源是通过 A 还是 A' 混合的，所以混合矩阵的旋转组件无法从数据中找出来，我们不能恢复原始源。

上面的讨论是基于多元标准正态分布是旋转对称的，ICA 在高斯数据上表现不行，但只要数据不是高斯的，给定足够的数据，我们就能恢复出 n 个独立的源。

2、密度和线性转换

在推导 ICA 算法之前，我们先来讨论下密度的线性转换的影响。

假定随机变量 s 符合密度函数 p_s(s) ，简单起见，假设 s∈R 是一个实值，现在，随机变量 x 为 x=As，其中 s∈R，A∈R。那么 x 的密度 p_x 是什么？

设 W=A^-1，为计算特定值 x 的概率，容易想到 s=Wx，然后估计该点的 p_s，得出 p_x(x)=p_s(Wx)，当然这是不对的！例如，设 s~Uniform[0,1]，所以 s 的密度为 p_s(s)=1{0≤s≤1}，现在让 A=2，那么 x=2s，很明显，x 是均匀分布在区间 [0,2]，所以，它的密度为 p_x(x)=(0.5){0≤x≤2}，而不是 p_s(Wx)，其中 W=0.5=A^-1，正确的公式是 p_x(x)=p_s(Wx)|W|。

一般地说，如果 s 是一个向量值，分布密度为 p_s，x=As，其中 A 为可逆矩阵，那么 x 的密度为：

p_x(x)=p_s(Wx)·|W|

其中 W=A^-1。

3、ICA 算法

现在来推导 ICA 算法，ICA 算法归功于 Bell 和 Sejnowski，这里使用最大似然估计来解释算法，原始论文中的解释是用一种称为 infomax principal 的复杂思想，已经不适用于当前对 ICA 的理解。

假设每个源 s_i 的概率密度为 p_s，源 s 的联合分布为：

把联合分布建模为边缘分布的乘积，这里假设源是相互独立的。使用之前的公式，x=As=W^-1s 的概率密度为：

剩下的就是给独立的源 p_s 指定一个密度。

给定一个实值随机变量 z，它的累积分布函数（cdf）F 定义为，F(z₀)=P(z≤z₀)=∫p_z(z)dz，z 的密度就是对 F 求导：p_z(z)=F'(z)。

所以，要指定 s_i 的密度，先指定一个累积分布函数 cdf。一个 cdf 是从 0 到 1 的单调递增函数，根据之前的讨论，不能选择高斯累积分布函数，因为 ICA 在高斯数据上无效。要选择一个合理的能从 0 到 1 缓慢递增的函数，就选择 sigmoid 函数：g(s)=1/(1+e^-s)，所以 p_s(s)=g'(s)。

矩阵 W 是模型的参数，给定训练集 {x⁽ⁱ⁾;i=1,...,m}，log 似然为：

要以 W 为参数最大化该式。求导并使用事实 ▽_w|W|=|W|(W^-1)^T，很容易就导出随机梯度下降学习规则。对于一个训练例子 x⁽ⁱ⁾，更新规则为：

其中 α 是学习率。算法收敛后，就能够通过计算 s⁽ⁱ⁾=Wx⁽ⁱ⁾ 来恢复原始信号。

写数据的似然时，x⁽ⁱ⁾ 之间是相互独立的，所以训练集的似然为 ∏_i p(x⁽ⁱ⁾;W)，这个假设对于讲话数据和其它 x⁽ⁱ⁾ 依赖的时间序列是明显不对的，但可以看到，如果有足够的数据，即使训练集是相关的，也不会影响算法的性能。但是，对于连续训练例子是相关的问题，执行随机梯度下降时，有时碰到一些随机排列的训练集也会加速收敛。

参考资料：

[1] http://cs229.stanford.edu/notes/cs229-notes11.pdf

[2] http://blog.csdn.net/stdcoutzyx/article/details/38037659

转载于:https://www.cnblogs.com/NaughtyBaby/p/5433672.html

dengxun7056

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记—独立成分分析

本文介绍独立成分分析（ICA），同 PCA 类似，我们是要找到一个新的基来表示数据，但目的就不一样了。鸡尾酒会问题：n 个人在一个 party 上同时说话，n 个麦克风放置在房间的不同位置，因为每个麦克风跟每个人的距离都不一样，所以它们记录的说话者重叠的声音也不一样。根据麦克风记录的声音，如何分离出 n 个说话者的声音呢？为形式化这个问题，我们想象有一些数据 s∈R 是从 n 个...
复制链接

扫一扫