大数据最全多元高斯分布,2024年最新大数据开发面试题集锦

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

通过求偏导我们可以得到u,Σ的最优解。

多元高斯分布和上面所说的将第一维当做一个一维的变量,然后使用u1以及σ1来衡量他的分布,同样,对于第二维使用u2以及σ2来衡量,然后将得到的obj=p(x1; u1, σ1)*p(x2; u2, σ2)*…*p(xn; un, σn)的模型有着联系,后者是多元高斯分布的一种特例,当n维变量X的每一维都相互独立,也就是说多元高斯分布对应的Σ是一个对角矩阵,除了主对角线上的数外,其余数都为0,此时多元高斯分布可以写成上述形式,注意,模型obj没有要求每一维是相互独立的。

原始的模型计算复杂度比较小,多元高斯模型计算复杂度较大,但是效果更好。通过人为构造一些捕捉不同维度之间关系的维度能够得到更好的效果,而当训练样本数远大于数据维度的时候使用多元高斯分布能够取得很好的效果。

3:马氏距离(Mahalanobis distance)

下面是马氏距离的一些基本概念,可以看到,马氏距离的表达式和多元高斯分布exp()里面的表达式一致,至于原因是为什么我不太清楚,这一点需要再查一下,如果有知道的请评论一下,谢谢。

对于欧式举例来说,下面的红蓝两个点和中心点(叉)有相同的距离,但是由于变量x1,x2是具有相关性的,因此可以看出数据分布实际上是条形的,因此这个时候红色的点接近于边缘,甚至可以视为离群点(outlier),因此在这种情况下,欧式距离是不适用的。 通过一些变化将原始的数据分布进行坐标变换如PCA,变化之后的数据就可以使用欧氏距离进行距离度量。

除此之外,对于一些具有不同尺度的数据,直接使用欧式距离计算是不合适的,如下面的A,B,C三组数据:

如果特征x和y具有不同的尺度,那么直接计算欧几里得距离的话,可以很直观的看出,距离主要取决于数据量较大的一组,因此结果是不准确的,所以很多数据都会做预处理,比如说z-score,min-max之类的变换尺度的方法。

马氏距离也可以看成先将数据进行尺度变换,类似于(x-u)/σ,然后在进行距离计算。

下面这篇论文从公式介绍了该过程:

https://www.cnblogs.com/DPL-Doreen/p/8183909.html

可以看出,马氏距离实际上就是将原始分布做PCA之后再次进行欧氏距离度量的方法。

参考文献:

http://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/

https://www.youtube.com/watch?v=spNpfmWZBmg

https://www.youtube.com/watch?v=3IdvoI8O9hU

https://www.cnblogs.com/DPL-Doreen/p/8183909.html

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

需要这份系统化资料的朋友,可以戳这里获取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值