28.1 线性判别分析(LDA)
- Linear Discriminant Analysis
- 用途:数据预处理中的降维,分类任务
- 历史:Ronald A. Fisher在1936年提出了线性判别方法
- 目标:LDA关心的是能够最大化类间区分度的坐标轴成分。将特征空间(数据集中的多维样本)投影到一个维度更小的 k 维子空间中, 同时保持区分类别的信息
- 原理:投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近方法
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LUn9i6yH-1614241178174)(https://upload-images.jianshu.io/upload_images/19745945-01fb78f3eaef8a00.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)] - 监督性:LDA是“有监督”的,它计算的是另一类特定的方向
- 投影:找到更合适分类的空间
- 与PCA不同,更关心分类而不是方差
- 数学原理
- Linear Discriminant Analysis
-
LDA分类的一个目标是使得不同类别之间的距离越远越好, 同一类别之中的距离越近越好
-
每类样例的均值:
-
投影后的均值:
-
投影后的两类样本中心点尽量分离:
-
只最大化J(w)就可以了?
-
X1的方向可以最大化J(w),但是却分的不好
-
散列值:样本点的密集程度,值越大,越分散,反之,越集中
-
同类之间应该越密集些:
-
目标函数:
-
散列值公式展开:
-
散列矩阵(scatter matrices):
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HeKDCzaQ-1614241178213)(https://upload-images
-