一些特征选择方法(II)

LDA

PCA

参考:http://blog.codinglabs.org/articles/pca-tutorial.html
假设我们只有a和b两个字段,那么我们将它们按行组成矩阵 X X

X=(a1a2amb1b2bm)

然后我们用 X X 乘以X的转置,并乘上系数 1/m 1 / m

1mXXT=(1mmi=1a2i1mmi=1aibi1mmi=1aibi1mmi=1b2i) 1 m X X T = ( 1 m ∑ i = 1 m a i 2 1 m ∑ i = 1 m a i b i 1 m ∑ i = 1 m a i b i 1 m ∑ i = 1 m b i 2 )

设我们有 m m n维数据记录,将其按列排成 n n m的矩阵 X X ,设C=1mXXT,则 C C 是一个对称矩阵,其对角线分别个各个字段的方差,而第i行j列和j行i列元素相同,表示i和j两个字段的协方差。

协方差矩阵对角化

设原始数据矩阵X对应的协方差矩阵为 C C ,而P是一组基按行组成的矩阵,设 Y=PX Y = P X ,则 Y Y X P P 做基变换后的数据。设Y的协方差矩阵为 D D ,我们推导一下D C C 的关系:

D=1mYYT=1m(PX)(PX)T=1mPXXTPT=P(1mXXT)PT=PCPT

协方差矩阵C是一个是对称矩阵,在线性代数上,实对称矩阵有一系列非常好的性质:

1)实对称矩阵不同特征值对应的特征向量必然正交。

2)设特征向量λ重数为r,则必然存在r个线性无关的特征向量对应于λ,因此可以将这r个特征向量单位正交化。
由上面两条可知,一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量,设这n个特征向量为 e1,e2,,en e 1 , e 2 , ⋯ , e n ,我们将其按列组成矩阵:

E=(e1e2en) E = ( e 1 e 2 ⋯ e n )

则对协方差矩阵 C C 有如下结论:
ETCE=Λ=(λ1λ2λn)

PCA算法

总结一下PCA的算法步骤:

设有m条n维数据。

1)将原始数据按列组成n行m列矩阵X

2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值

3)求出协方差矩阵C=1mXXT
4)求出协方差矩阵的特征值及对应的特征向量

5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P

6)Y=PX即为降维到k维后的数据
LDA L D A 用于降维,和 PCA P C A 有很多相同,也有很多不同的地方,因此值得好好的比较一下两者的降维异同点。

    首先我们看看相同点:

    1)两者均可以对数据进行降维。

    2)两者在降维时均使用了矩阵特征分解的思想。

    3)两者都假设数据符合高斯分布。

    我们接着看看不同点:

    1) LDA L D A 是有监督的降维方法,而 PCA P C A 是无监督的降维方法

    2) LDA L D A 降维最多降到类别数 k1 k − 1 的维数,而 PCA P C A 没有这个限制。

    3) LDA L D A 除了可以用于降维,还可以用于分类。

    4) LDA L D A 选择分类性能最好的投影方向,而 PCA P C A 选择样本点投影具有最大方差的方向。

### 回答1: Matlab是一种数据分析和处理的常用工具。在Matlab中,特征选择是一种用于提取数据中最重要特征的方法。这种方法可以帮助我们降低数据维度,提升数据处理效率和准确性。 Matlab特征选择方法包括:过滤式、包裹式、嵌入式三种方法。其中,过滤式特征选择是最常用的一种方法,它利用统计学方法快速挑选出与分类结果最相关的特征,再通过多次验证来确定最终的结果。包裹式特征选择则是将特征选择算法看作特定模型的一部分,每次迭代时都会验证特征是否对分类结果有重要影响,较为耗时。嵌入式特征选择则是在进入机器学习算法的过程中对特征进行选择。这里特征的权重是由给定模型生成的,特征选择与学习过程紧密结合,是非常高效的一种特征选择方法。 总之,Matlab提供了多种特征选择方法,可以根据数据类型、应用场景等选择适合的特征选择算法进行数据处理,提升实验效果和结果准确率。 ### 回答2: MATLAB是一个非常强大的工具,可以用于特征选择以提高模型性能和减少计算成本。在MATLAB中,有几种方法可以进行特征选择。 第一种方法是使用Lasso回归。Lasso回归是通过最小化代价函数,使得系数估计量是小的,从而消除不相关的特征。在MATLAB中实现Lasso回归特征选择可以使用Lasso函数。 第二种方法是使用支持向量机(SVM)。SVM算法可以很好地处理高维度数据集,并具有出色的分类性能。在MATLAB中,SVM可以通过SVMtrain和SVMpredict函数来实现。特征加权也可以通过设置SVMtrain中的权重向量来实现。 第三种方法是实现随机森林特征选择。随机森林是一种集成学习算法,可以非常有效地处理高维度数据集。通过应用随机森林特征选择方法,可以从原始特征集中识别出最相关的特征。在MATLAB中,可以使用TreeBagger函数进行随机森林特征选择。 最后,特征选择可以通过使用统计方法进行。在MATLAB中,可以使用ANOVA函数以及其他统计工具来实现特征选择。 综上所述,MATLAB提供了多种方法进行特征选择,具有非常强大的功能和灵活性,可以帮助人们有效地提高模型性能和减少计算成本。 ### 回答3: Matlab特征选择方法是一种用于机器学习和模式识别的技术,通过选择最相关的特征来提高分类精度和降低计算负担。Matlab提供了多种特征选择方法,其中一些包括: 1.相关系数法:基于特征与分类变量之间的相关性来选择特征。最相关的特征将会被选择,而不相关的特征将会被舍弃。 2.方差分析法:基于F分布的检验来选择特征。这种方法会比较各个特征对总方差的贡献,对那些能够显著影响方差的特征进行选择。 3.主成分分析法:将原始特征变换到新的空间中,将变化后的特征按照重要性排序,选取前几个重要的特征作为新的特征子集。 4.基于遗传算法的特征选择法:基于遗传算法的思想来进行特征选择。该方法适合于特征数量大、需要选择最优特征子集的问题。 Matlab特征选择方法可以根据不同的数据类型和问题需求选择不同的方法。在选择合适的方法时,一般需要进行试验分析,观察选取的特征子集在训练集和测试集上的性能表现,选择最优的特征子集。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值