大数据最全多元高斯分布，2024年最新大数据开发开发应该了解的Binder原理

2401_84181326

于 2024-05-15 15:25:13 发布

阅读量399

点赞数 4

文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84181326/article/details/138910265

版权

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

通过求偏导我们可以得到u,Σ的最优解。

多元高斯分布和上面所说的将第一维当做一个一维的变量，然后使用u1以及σ1来衡量他的分布，同样，对于第二维使用u2以及σ2来衡量，然后将得到的obj=p(x1; u1, σ1)*p(x2; u2, σ2)*…*p(xn; un, σn)的模型有着联系，后者是多元高斯分布的一种特例，当n维变量X的每一维都相互独立，也就是说多元高斯分布对应的Σ是一个对角矩阵，除了主对角线上的数外，其余数都为0，此时多元高斯分布可以写成上述形式，注意，模型obj没有要求每一维是相互独立的。

原始的模型计算复杂度比较小，多元高斯模型计算复杂度较大，但是效果更好。通过人为构造一些捕捉不同维度之间关系的维度能够得到更好的效果，而当训练样本数远大于数据维度的时候使用多元高斯分布能够取得很好的效果。

3：马氏距离(Mahalanobis distance)

下面是马氏距离的一些基本概念，可以看到，马氏距离的表达式和多元高斯分布exp()里面的表达式一致，至于原因是为什么我不太清楚，这一点需要再查一下，如果有知道的请评论一下，谢谢。

对于欧式举例来说，下面的红蓝两个点和中心点（叉）有相同的距离，但是由于变量x1,x2是具有相关性的，因此可以看出数据分布实际上是条形的，因此这个时候红色的点接近于边缘，甚至可以视为离群点（outlier），因此在这种情况下，欧式距离是不适用的。通过一些变化将原始的数据分布进行坐标变换如PCA，变化之后的数据就可以使用欧氏距离进行距离度量。