【HCIE-BigData-Data Mining课程笔记(二)】预备知识-数学基础

预备知识-数学基础

一、线性代数

1.行列式及矩阵

1.1行列式

行列式是一个将方阵映射到一个标量的函数,记作|A|。
行列式等于矩阵特征值的乘积。
行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或缩小了多少
行列式的正负表示空间的定向

行列式的计算

二阶行列式:主对角线元素之积减去非主对角线元素之积

行列式的几何意义

二阶行列式是两个二维向量的平行四边形的有向面积	

1.2矩阵及其变换
矩阵的定义

矩阵:m行n列组成的数表
行数列数相等称为方阵

矩阵的运算
矩阵运算
矩阵的描述是在线性空间中对向量运行的描述
矩阵的转置

(A^T)^T=A
(A+B)^T=A^T+B^T
(kA)^T=kA^T
(AB)^T=B^TA^T

对角矩阵
主对角线之外的元素皆为0的矩阵。
对称矩阵:转置矩阵与矩阵本身相同
正交矩阵:转置矩阵等于逆矩阵

2.矩阵分解

2.1 特征值

要求被分解的矩阵是方阵
特征值:

设A是数域K上的n级矩阵,如果K^n中有非零向量α使得 Aα=λα,且λ∈K,则λ是A的特征值,α为A的属于特征值λ的一个特征向量。
将方阵分解成为一组特征向量和特征值乘积的方阵来发现矩阵表示成数组元素时不明显的函数性质。
求解特征值:|A-λI|=0称为A的特征方程,λ为特征方程的解,即特征根,将特征根λ代入Aα=λα即可求得特征向量α。
矩阵乘法是对向量进行旋转、压缩。
如果矩阵作用于某一个向量或某些向量使这些向量只发生伸缩变换,不对这些向量产生旋转及投影的效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征值。

特征分解

设A有个线性无关的特征向量α1,α2,...,αn,相对应的特征值λ1,λ2,...,λn,则A的特征分解为:A=Pdiag(λ)P^-1,其中P={α1,α2,...,αn},λ={λ1,λ2,...,λn}

特征值分解的应用

在线性空间的角度看,特征值越大,则矩阵在对应特征向量上的方差越大,信息量越多
在最优化中,矩阵特征值的大小与函数值的变化快慢有关,在最大特征值所对应的特征方向上函数值变化最大,也就是该方向上的方向导数最大
在数据挖掘中,最大特征值对应的特征向量上包含最多的信息量。如果某几个特征值很小,说明这个方向上的信息量很小,可以用来降维的算法杀出小特征值对应方向的数据,只保留大特征值方向对应的数据,这样做可以减小数据量,同时保留有用信息。

2.2 奇异值

对于要分解的矩阵没有特殊要求
奇异值分解

概念:将矩阵分解为奇异向量和奇异值。可以将矩阵A=(aij)mxn分解为三个矩阵的乘积:A=UΣV^T
其中U=(bij)mxm,Σ=(cij)mxn,V^T=(dij)nxn.矩阵U和V都为正交矩阵,矩阵U的列向量称为左奇异向量,矩阵V的列向量称为右奇异向量,Σ称为对角矩阵(不一定是方阵),Σ对角线上的元素称为矩阵A的奇异值,奇异值按从大到小的顺序排列。

奇异值分解的应用

在机器学习和数据挖掘领域,有很多的应用都与奇异值相关,比如做特征减少的主成分分析(PCA)和线性判别分析(LDA),数据压缩(以图像压缩为代表)算法,还有做搜索引擎语义层次检索的LSI(Latent semantic indexing)

奇异值分解的几何意义

奇异值分解可以理解为在原空间内找到一组正交基vi通过矩阵乘法将这组正交基映射到像空间中,其中奇异值对应伸缩系数。
奇异值分解将原本混合在一起的旋转、缩放和投影三种作用的效果分解出来了

奇异值分解和特征值分解的区别

奇异值分解适用于所有矩阵;特征值分解只适用于方阵
特征值分解和奇异值分解都是给一个矩阵找一组特殊的基,特征值分解找到了特征向量这组基,在这组基下该变换只有缩放效果。而奇异值分解则是一组基,将变换的旋转、缩放、投影三种功能独立地展示出来。
奇异值都是非负的&#x
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值