最新多元高斯分布(2)，大数据开发高级架构进阶之数据传输与序列化

2401_84181536

于 2024-05-12 17:04:42 发布

阅读量425

点赞数 3

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84181536/article/details/138760148

版权

程序员专栏收录该内容

153 篇文章 0 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

1.the largest eigenvector of the covariance matrix always points into the direction of the largest variance of the data, and the magnitude of this vector equals the corresponding eigenvalue. The second largest eigenvector is always orthogonal to the largest eigenvector, and points into the direction of the second largest spread of the data.

通过PCA我们知道，最大特征值对应的特征向量具有最大的方差，我感觉这里说的比较好的一点就是方差越大数据的spread就越大，这一点可以通过下图来看出：

上图截取自andrew ng在coursera上的机器学习课程的multivariate gaussian distribution一节中，由于Σ对角线上的元素的值就是变量的方差，可以看出，当x2的方差等于1的时候大于0.6的时候。

2.we showed that the covariance matrix of observed data is directly related to a linear transformation of white, uncorrelated data. This linear transformation is completely defined by the eigenvectors and eigenvalues of the data. While the eigenvectors represent the rotation matrix, the eigenvalues correspond to the square of the scaling factor in each dimension.

2.多元高斯分布

多元高斯分布的详细介绍请查看博客https://www.cnblogs.com/jermmyhsu/p/8251013.html，这里我想说的主要是下面一点。如果我们需要估计一些数据分布接近于高斯分布的变量时，存在两种解法。一种就是把特征的第一维当做一个一维的变量，然后使用u1以及σ1来衡量他的分布，同样，对于第二维使用u2以及σ2来衡量，然后将得到的obj=p(x1; u1, σ1)*p(x2; u2, σ2)*…*p(xn; un, σn)来当做最终的目标函数进行优化，使用最大似然估计来得到较好的分布估计。但是我们也可以使用多元高斯分布来代替，此时p(x)=p(x;u,Σ).

通过求偏导我们可以得到u,Σ的最优解。

多元高斯分布和上面所说的将第一维当做一个一维的变量，然后使用u1以及σ1来衡量他的分布，同样，对于第二维使用u2以及σ2来衡量，然后将得到的obj=p(x1; u1, σ1)*p(x2; u2, σ2)*…*p(xn; un, σn)的模型有着联系，后者是多元高斯分布的一种特例，当n维变量X的每一维都相互独立，也就是说多元高斯分布对应的Σ是一个对角矩阵，除了主对角线上的数外，其余数都为0，此时多元高斯分布可以写成上述形式，注意，模型obj没有要求每一维是相互独立的。

原始的模型计算复杂度比较小，多元高斯模型计算复杂度较大，但是效果更好。通过人为构造一些捕捉不同维度之间关系的维度能够得到更好的效果，而当训练样本数远大于数据维度的时候使用多元高斯分布能够取得很好的效果。

3：马氏距离(Mahalanobis distance)

下面是马氏距离的一些基本概念，可以看到，马氏距离的表达式和多元高斯分布exp()里面的表达式一致，至于原因是为什么我不太清楚，这一点需要再查一下，如果有知道的请评论一下，谢谢。

对于欧式举例来说，下面的红蓝两个点和中心点（叉）有相同的距离，但是由于变量x1,x2是具有相关性的，因此可以看出数据分布实际上是条形的，因此这个时候红色的点接近于边缘，甚至可以视为离群点（outlier），因此在这种情况下，欧式距离是不适用的。通过一些变化将原始的数据分布进行坐标变换如PCA，变化之后的数据就可以使用欧氏距离进行距离度量。