分段线性判别法 java_线性判别分析(Linear Discriminant Analysis)(一)

1. 问题

之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。

比如回到上次提出的文档中含有“learn”和“study”的问题,使用PCA后,也许可以将这两个特征合并为一个,降了维度。但假设我们的类别标签y是判断这篇文章的topic是不是有关学习方面的。那么这两个特征对y几乎没什么影响,完全可以去除。

再举一个例子,假设我们对一张100*100像素的图片做人脸识别,每个像素是一个特征,那么会有10000个特征,而对应的类别标签y仅仅是0/1值,1代表是人脸。这么多特征不仅训练复杂,而且不必要特征对结果会带来不可预知的影响,但我们想得到降维后的一些最佳特征(与y关系最密切的),怎么办呢?

2. 线性判别分析(二类情况)

回顾我们之前的logistic回归方法,给定m个n维特征的训练样例652f88841fb2a8a0ccec724330b1dbce.png(i从1到m),每个2cf3ce7684bbe0f05bae903945f36909.png对应一个类标签20194cd79b7a5961d74d7353675d4758.png。我们就是要学习出参数584699e143d70706fbcdfd88c799f552.png,使得81b5cc3f28c9c8e9290e1984eac643f1.png(g是sigmoid函数)。

现在只考虑二值分类情况,也就是y=1或者y=0。

为了方便表示,我们先换符号重新定义问题,给定特征为d维的N个样例,e644a7c6b5b726d93843f85e61a46611.png,其中有3d43c4c15ca9ac718ddc66dd880a3eb3.png个样例属于类别075a202405f4d0f218fef16be3b50b2b.png,另外41a50a80361cd7842ba7b056bda1c71b.png个样例属于类别5c5a31b2363fa2a96a49ea4e27972a95.png

现在我们觉得原始特征数太多,想将d维特征降到只有一维,而又要保证类别能够“清晰”地反映在低维数据上,也就是这一维就能决定每个样例的类别。

我们将这个最佳的向量称为w(d维),那么样例x(d维)到w上的投影可以用下式来计算

fe3accce9a092a4d7397b9369b26f538.png

这里得到的y值不是0/1值,而是x投影到直线上的点到原点的距离。

当x是二维的,我们就是要找一条直线(方向为w)来做投影,然后寻找最能使样本点分离的直线。如下图:

bbb109147c2d7d41fe40391e25f06010.png

从直观上来看,右图比较好,可以很好地将不同类别的样本点分离。

接下来我们从定量的角度来找到这个最佳的w。

首先我们寻找每类样例的均值(中心点),这里i只有两个

f8c82e90f1c4308af004d1b255ab247d.png

由于x到w投影后的样本点均值为

2cbf8e1d627e774695852f2d8679c345.png

由此可知,投影后的的均值也就是样本中心点的投影。

什么是最佳的直线(w)呢?我们首先发现,能够使投影后的两类样本中心点尽量分离的直线是好的直线,定量表示就是:

7f5c38ffaa78072fd80d77aa65a945da.png

J(w)越大越好。

但是只考虑J(w)行不行呢?不行,看下图

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值