文本挖掘之降维之特征抽取之主成分分析(PCA)

原创 2016年03月02日 10:49:22

PCA(主成分分析)

作用:

1、减少变量的的个数

2、降低变量之间的相关性,从而降低多重共线性。

3、新合成的变量更好的解释多个变量组合之后的意义

PCA的原理:

样本X和样本Y的协方差(Covariance):

协方差为正时说明X和Y是正相关关系,协方差为负时X和Y是负相关关系,协方差为0时X和Y相互独立。

Cov(X,X)就是X的方差(Variance).

当样本是n维数据时,它们的协方差实际上是协方差矩阵(对称方阵),方阵的边长是。比如对于3维数据(x,y,z),计算它的协方差就是:

,则称是A的特征值,X是对应的特征向量。实际上可以这样理解:矩阵A作用在它的特征向量X上,仅仅使得X的长度发生了变化,缩放比例就是相应的特征值

当A是n阶可逆矩阵时,A与P-1Ap相似,相似矩阵具有相同的特征值。

特别地,当A是对称矩阵时,A的奇异值等于A的特征值,存在正交矩阵Q(Q-1=QT),使得:

对A进行奇异值分解就能求出所有特征值和Q矩阵。

     D是由特征值组成的对角矩阵

由特征值和特征向量的定义知,Q的列向量就是A的特征向量。

实现步骤:


具体实例:

首先我们有N个P维的向量要区分,X1,X2...Xn。P比较大,则处理所有向量的数据量较大,我们将其降至d维(d<P)。首先构造矩阵S=[X1,X2...Xn],算出协方差矩阵C(P维方阵),求出C的特征值T和特征向量V。将特征值按从大到小排列取出前d个特征值,并将这些特征值对应的特征向量构成一个投影矩阵L。使用S*L则得到降维后的提出主成分的矩阵。下面附上自己做的小实验。

  X1 = [1,2,4]   X2 = [10,4,5]  X3 = [100,8,4]

  根据经验上述3维向量中,第一维和第二维是区分的要素且第一维比第二维区分度更大。于是我们构造矩阵S,

 1) S = [1,2,4;10,4,5;100,8,5]

  2)计算出S的协方差矩阵C = COV(S),

  C =

  1.0e+003 *

    2.9970    0.1620    0.0180
    0.1620    0.0093    0.0013
    0.0180    0.0013    0.0003

  求出协方差矩阵C的特征值T和特征向量V,[T,V] = eig(C)

 V =

   -0.0235    0.0489   -0.9985
    0.5299   -0.8464   -0.0540
   -0.8478   -0.5303   -0.0060


  T=

  1.0e+003 *

   -0.0000         0         0
         0    0.0008         0
         0         0    3.0059

  取出第3个和第2个特征值以及相对应的特征向量构成投影矩阵L(实际上可以只取第三维)

  L =

   -0.9985    0.0489
   -0.0540   -0.8464
   -0.0060   -0.5303

  使用S*L则得到新的降维后的矩阵N

  N =

   -1.1305     -3.7651
  -10.2310    -5.5481
  -100.3120   -4.5327

  则提取出了可以用于区分的二维。





版权声明:本文为博主原创文章,未经博主允许不得转载。

机器学习算法笔记系列之深入理解主成分分析PCA-原理篇

机器学习算法笔记系列之深入理解PCA-原理篇(未完待续) 作者:shizhixin 博客:http://blog.csdn.net/shizhixin 微博:http://weibo....
  • ShiZhixin
  • ShiZhixin
  • 2016年04月18日 17:37
  • 10706

文本特征提取

文本挖掘模型结构示意图 1. 分词 分词实例:        提高人民生活水平:提高、高人、人民、民生、生活、活水、水平 分词基本方法:         最大匹配法、最大概率法分词、最短路径分词...
  • qll125596718
  • qll125596718
  • 2012年12月17日 12:45
  • 39455

特征提取——主成分分析PCA(K-L变换)及几何解释

最先接触到K-L变换的时候还懵懵懂懂,
  • light_lj
  • light_lj
  • 2014年05月19日 09:36
  • 10121

文本特征提取方法研究

一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法...
  • han____shuai
  • han____shuai
  • 2016年11月13日 22:10
  • 6638

从文本抽取特征

从文本抽取特征Extracting features from text最近在做SIGHAN的task 2情感分类任务,在这样的二分类/三分类问题中,最重要的就是文本特征的提取和选择,也就是: 特征工...
  • ECNU_zwq
  • ECNU_zwq
  • 2015年04月11日 17:44
  • 796

基于PCA的特征提取

图像处理方面的知识也学了一段时间了,总是光看理论的话,感觉联系不上实际,第一次把理论综合的实现出来,对这些理论的印象才感觉的更深刻,也能够为后续的学习打下良好的基础。 PCA和SVM都是比较老的算法...
  • cui134
  • cui134
  • 2014年04月09日 15:40
  • 2170

文本挖掘之降维技术之特征选择

1、为什么要进行降维处理?     目前大多数使用向量空间模型对文本表示成为向量形式,而向量的属性则有可能涉及到中文中的所有词汇,其向量的维数是非常巨大的,同时考虑到一篇文章只不过包含极少数词语(比如...
  • u011955252
  • u011955252
  • 2016年02月29日 16:41
  • 3295

文本分类(五):使用LDA进行文本的降维---提特征

每个文本可以看作是又不同的主题构成了,各个主题
  • lxg0807
  • lxg0807
  • 2016年10月10日 15:36
  • 2907

文本分类中的降维方法总结

引言 人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。 这种未经处理的文本矢量不仅给后续工作带...
  • Allenalex
  • Allenalex
  • 2017年08月18日 11:16
  • 831

文本分类之降维技术之特征抽取之SVD矩阵的分解的原理的介绍

http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html 一、奇异值与特征值基础知识:     ...
  • u011955252
  • u011955252
  • 2016年03月02日 18:29
  • 1558
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:文本挖掘之降维之特征抽取之主成分分析(PCA)
举报原因:
原因补充:

(最多只允许输入30个字)