线性判别分析(LDA)与主成分分析(PCA)

线性判别分析(LDA)

有监督分类算法:

原理:将数据投影到一条直线上,通过训练使得这条直线上同类的投影点距离该类的中心点尽可能近,不同类的投影点的中心点尽可能远;将原始数据投影至低维空间,尽量使同一类的数据聚集,不同类的数据尽可能分散;投影后类内方差最小,类间方差最大;

受计算原理的影响,即降维时依赖类别(中心或者说均值)差异,使得最多降低到K-1维(K为类别数量)

优点:1). 可以使用类别的先验知识; 2). 以标签、类别衡量差异性的有监督降维方式,相对于PCA的模糊性,其目的更明确,更能反映样本间的差异;

缺点:1). LDA不适合对非高斯分布样本进行降维; 2). LDA降维最多降到分类数k-1维; 3). LDA在样本分类信息依赖方差而不是均值时,降维效果不好; 4). LDA可能过度拟合数据。

PCA(principal component analysis)主成分分析

基本原理:

将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。

基本过程:

从原始的空间中顺序的找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大,第三个轴是与第1、2个轴正交的平面中方差最大的。以此类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。

从降维过程可知,PCA依赖数据的方差信息,选择保留最大方差信息来降维

LDA和PCA的区别

相同点:

1). 两者均可以对数据进行降维; 2). 两者在降维时均使用了矩阵特征分解的思想; 3). 两者都假设数据符合高斯分布;

不同点:

LDA: 有监督的降维方法; 降维最多降到 k-1;可以用于降维;还可以用于分类; 选择分类性能最好的投影方向;更明确,更能反映样本间差异;依赖类别内部样布均值差异

PCA: 无监督的降维方法;维降维多少没有限制;只用于降维;选择样本点投影具有最大方差的方向;目的较为模糊。依赖样本间的方差差异。

img

最优分箱

有监督的。如根据outcome 字段对年龄分箱
https://gnpalencia.org/optbinning/tutorials/tutorial_binary.html

from optbinning import OptimalBinning
bin_model = OptimalBinning(name = 'Age')
bin_model.fit(df['Age'],df['Outcome'])

bin_model.binning_table.build()

bin_model.binning_table.plot(metric = 'event_rate')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值