降维相关

本文深入探讨了降维技术,包括PCA(主成分分析)、LDA(线性判别分析)、LLE(局部线性嵌入)、LE(拉普拉斯特征映射)、SNE(潜变量散射)和T-SNE(t-分布SNE)。PCA是一种无监督降维方法,通过最大化方差保留信息。LDA是有监督的,利用类别信息最大化类间距离和最小化类内距离。LLE和LE针对非线性情况,假设数据满足流形结构。SNE和T-SNE则关注保持高维空间中相似点在低维空间的相似性,其中T-SNE使用t-分布以增强对异常点的鲁棒性。
摘要由CSDN通过智能技术生成


什么是降维

一般来说,在ml里面,需要feature。而对于feature,我们又通常使用向量来表示。所以,简单地说,降维就是将一个高维的向量映射为一个低维的向量。形象地说,降维可以看作一个函数,输入是一个D为的向量,输出是一个M维的向量。

那怎么样才算是一个好的降维结果呢?直观地说,就是要既能降低维度,又能使得损失的信息尽量少。举个例子,如果现在有淘宝店铺的特征,有非常多维,我们想降维,那要怎么做呢?假设特征中有两维特征是“浏览量”和“访客数”,其实这两者之间应该是具有强相关性的,直觉上删除其中一个并不会造成多大的信息损失。以上就是一个朴素的降维思想。而按照机器学习的方法,我们需要定义一个目标函数,并进行最优化。而不同的优化目标也就导致了不同的降维算法。

首先,来看看最直接的损失函数,reconstuction error:

1Ni=1N||xixi~||2

其中 xi~ xi 降维后得到的低维向量再次“升维”而还原出来的高维向量。上面的式子无脑符合“既能降低维度,又能使得损失的信息尽量少”这句话。虽然这种损失函数很直接,但缺点是不仅要想出降维的方法还要有还原的方法。

另一种损失函数是variance:

argmaxf1Ni=1N(f(xi)f(xi)¯)2线f(xi)

这里variance的意思是“使得特征具有最好的区分能力”,在式子中的表现就是方差了。

好了,下面开始从一个个具体的降维算法入手,讲述其中的一些数学原理。


PCA

PCA作为学术界和工业界都最为常见的一个降维算法,肯定是排第一个啦。

在真正讲PCA之前,先明确一下协方差和协方差矩阵。协方差

cov(x,y)=1n1i=1nxiyi

是为了检测x和y两个变量之间的相关性,为正表明正相关,且越大说明越正相关;反之则是负相关。单单协方差只能衡量两个变量,也就是说只能处理特征只有二维的情况。如果特征有多维,那么就是协方差矩阵出场的时候了:

C=cov(x,x)cov(y,x)cov(z,x)cov(x,y)cov(y,y)cov(z,y)cov(x,z)cov(y,z)cov(z,z)XMNCMM=1N1XXT

对角线上是方差,而其他位置是协方差。另外,我们有以下推导:

cov(x,y)=cov(y,x)U使UTΣU=ΛΛ线ΣUΣXTMX0X
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值