机器学习数学基础(1)简化线性代数

本文是https://zhuanlan.zhihu.com/p/30191876的总结与补充

标量、向量、矩阵与张量:

1,标量
单独的数,小写符号表示,定义时说明所属范围
2,向量
一列数,粗体小写符号表示
3,矩阵
二维数组,粗体大写表示,矩阵大小表示标准: A\epsilon R^{m\times n} ,A为m行n列矩阵
4,张量
对标量,向量,矩阵的标准化表示方法,标量是零阶张量,向量是一阶张量,矩阵是二阶张量

矩阵向量的运算

1,矩阵乘法
矩阵A*B,A的列数等于B的行数,输出矩阵C的大小为m行p列矩阵,m是A的行数,p是B的列数
具体操作为:
2,Hadamard乘积
两个矩阵中对应元素的乘积被称为元素对应乘积或Hadamard乘积,记为\odot B
3,矩阵点积
两个相同尺寸(维数)的矩阵X,Y的点积或称内积为 两个矩阵对应元素相乘再按列相加,由向量内积推导至矩阵而来,向量内积计算公式:

a·b=a1b1+a2b2+……+anbn

向量内积的几何意义是用于表征两个向量的夹角,而矩阵是n列向量的组合,所以矩阵的点积即组成这两个矩阵的向量对应位置的夹角表征的集合。
A =


     1     2     3
     4     5     6
C =


     6     5     4
     3     2     1
dot(A,C)
ans =


    18    20    18
4,矩阵转置
矩阵的行变为位置序号相同的列,列变为位置序号相同的行
A =


     1     2     3
     4     5     6
A'
ans =


     1     4
     2     5
     3     6

单位矩阵和逆矩阵

1,单位矩阵
对角线元素为1,其余为0的矩阵
2,逆矩阵
矩阵A的矩阵逆记作 A^{-1},逆矩阵乘原矩阵得到单位矩阵  A^{-1}A=I_{n}
判断是否存在逆矩阵的方法:
(1)行数不等于列数的矩阵没有逆矩阵
(2) 非奇异矩阵有逆矩阵,可逆矩阵是非奇异矩阵
 (3)行列式不等于0说明有逆矩阵

行列式

计作det(A),物理意义:矩阵表示由n维空间变为另一n维空间的线性变换过程,行列式代表了在线性变换的过程中的放大率

方差,标准差,协方差

1,方差
衡量一组数据的离散程度,计算公式:
2,标准差
方差的平方根
3,协方差
协方差用于衡量两组向量的相关性
协方差计算方法: 两个向量分别减去自身的均值再求它们的内积
4,协方差矩阵
协方差矩阵用于衡量不同维度之间的协方差,不是不同样本。
由二维向量构成的矩阵的协方差矩阵要包含第一维与第一维的协方差,第一维与第二维的协方差,第二维与第一维的协方差,第二维与第二维的协方差。
计算方法:协方差矩阵元素(i,j) = (第 i 维所有元素 - 第 i 维的均值) * (第 j 维所有元素 - 第 j 维的均值) 。
*代表内积
协方差矩阵的特点:
1,对角线上的第i个元素是矩阵第i维的方差
2,非对角线上的元素(i,j)是第i维元素与第j维元素的协方差
3,协方差矩阵是对称矩阵

范数

衡量一个向量大小的单位,可引申为衡量一个矩阵大小


L^{P}范数如下:

\left| \left| x \right| \right| _{p}^{} =\left( \sum_{i}^{}{\left| x_{i} \right| ^{p} } \right) _{}^{\frac{1}{p} }

所以

L^{1} 范数\left| \left| x \right| \right| :为x向量各个元素绝对值之和;

L^{2} 范数\left| \left| x \right| \right| _{2} :为x向量各个元素平方和的开方,即距离公式,L2范数被称为欧几里得范数,简称欧氏距离

特殊类型的矩阵和向量

0,方阵:
矩阵的行数与列数相等
1,对角矩阵(diagonal matrix):

只在主对角线上含有非零元素,其他位置都是零

单位矩阵 是对角元素全部是 1的对角矩阵。

2,单位向量:

||x||_{2} = 1的向量称为单位向量

3,对称矩阵:

转置和自己相等的矩阵:A=A^{T}

4,向量正交:

两个向量的内积为0,物理意义:垂直

5,正交向量组:

由n个互相正交的向量构成的向量组

6,标准正交向量组:

组内的向量不仅互相正交,而且都是单位向量,标准正交向量组也被称为标准正交基

7,正交矩阵:

具有A^{T}A=AA^{T}=I的方阵称为正交矩阵 ,所以,A^{-1}=A^{T}

正交矩阵的特点:

(1)求逆代价小

(2)正交矩阵的行或列向量组是标准正交向量组

8,可对角化矩阵:

如果存在一个可逆矩阵 P 使得 P −1AP 是对角矩阵,则A就被称为可对角化

9,阶梯型矩阵

矩阵阶梯型矩阵矩阵中每一行的第一个不为零的元素的左边及其所在列以下全为零


线性相关:

向量组A:  
,如果存在不全为零的数 k 1, k 2, ···,k m , 使
则称向量组A是线性相关的 ,如果数 k1, k2, ···,km全为0时称它是线性无关

矩阵的秩:

用初等行变换化成阶梯型矩阵,梯矩阵中非零行数就是矩阵的秩


维数:

矩阵可看成是一个向量组,向量组中线性无关的向量的个数就是矩阵的维数,二维矩阵有行维和列维


方向向量及向量的长度

直线可由向量表示,所以直线的方向向量即为向量的方向向量

方向向量的定义为与直线平行的任一向量

向量的长度即向量的L2范数

只改变向量长度不改变方向的方法:对向量每一个值乘以相同的正数

特征分解以及其意义

意义:分解矩阵来发现矩阵表示成数组元素时不明显的函数性质,特征分解将矩阵分解为一组特征值与特征向量

性质:一个矩阵的特征向量经过特定变换后保持方向不变,只改变长度

特征向量的原始定义: AX=CX

CX是方阵A对X向量变换后的结果,CX与X方向相同,X是特征向量,C即为特征值

注意:只有可对角化矩阵才可以作特征分解,可对角化矩阵的特征值与特征向量是已知的

求解:A 是一个 N×N 的方阵,且有 N 个线性无关的特征向量 q_{i}(i=1....N)

这样, A 可以被分解


其中 QN×N方阵,且其第 i列为 A 的特征向量 。 Λ 是对角矩阵,其对角线上的元素为对应的特征值,也即 \wedge _{ii}=C_{i}

几何意义:矩阵与某一个向量或某些向量相乘,这些向量只发生伸缩变换,不产生旋转,这些向量被称为特征向量,伸缩的比例称为特征值

特征分解的重要应用--PCA(主成分分析):

为了减少处理数据量,采取降维的方法,删除对结果影响小的数据

做法:

求协方差矩阵,对协方差矩阵特征分解,进行对角化

R是原始数据集矩阵,U是特征向量组成的矩阵,D是特征值组成的对角矩阵,并按由大到小排列

R’ =RU,实现了数据集在特征向量这组正交基上的投影

R’中的数据列是按照对应特征值的大小排列的,后面的列对应小特征值,去掉以后对整个数据集的影响比较小

奇异值分解(SVD)及其意义

将矩阵 A 分解成三个矩阵的乘积: A=UDV^{T}
假设 A 是一个 m × n 的矩阵,那么 U 是一个 m × m 的矩阵,D 是一个 m × n的矩阵,V 是一个 n × n 矩阵。

矩阵 U 和 V 都被定义为正交矩阵,U是变换后的正交矩阵,V是原始正交矩阵,矩阵 D 是由特征值构成的对角矩阵。注意:矩阵 D 不一定是方阵。

求解过程复杂,看这篇文章奇异值分解

奇异值分解的几何意义:

简介:矩阵是线性变换过程的表达形式,在一组正交基下的线性变换可被分解为在另一组正交基下的长度伸缩,所以原矩阵可被分解为由两组正交基与对角矩阵

看http://blog.csdn.net/redline2005/article/details/24100293

奇异值分解与特征值分解的联系:

1,奇异值可用于所有矩阵,特征值分解只能用于可对角化矩阵

2,协方差矩阵的奇异值分解与特征值分解的结果是一致的,所以,SVD是PCA的另一种实现方式

Moore-Penrose 伪逆

Ax=y

为得到矩阵A,采用公式:

矩阵U,D 和V 是矩阵A奇异值分解后得到的矩阵,D+是D的违逆,违逆运算为:非零元素求倒,再转置

迹运算

迹运算是求矩阵对角元素的和,符号Tr(A)

重要性质:

Tr(ABC) = Tr(CAB) = Tr(BCA).

Preface I wrote this book to help machine learning practitioners, like you, get on top of linear algebra, fast. Linear Algebra Is Important in Machine Learning There is no doubt that linear algebra is important in machine learning. Linear algebra is the mathematics of data. It’s all vectors and matrices of numbers. Modern statistics is described using the notation of linear algebra and modern statistical methods harness the tools of linear algebra. Modern machine learning methods are described the same way, using the notations and tools drawn directly from linear algebra. Even some classical methods used in the field, such as linear regression via linear least squares and singular-value decomposition, are linear algebra methods, and other methods, such as principal component analysis, were born from the marriage of linear algebra and statistics. To read and understand machine learning, you must be able to read and understand linear algebra. Practitioners Study Linear Algebra Too Early If you ask how to get started in machine learning, you will very likely be told to start with linear algebra. We know that knowledge of linear algebra is critically important, but it does not have to be the place to start. Learning linear algebra first, then calculus, probability, statistics, and eventually machine learning theory is a long and slow bottom-up path. A better fit for developers is to start with systematic procedures that get results, and work back to the deeper understanding of theory, using working results as a context. I call this the top-down or results-first approach to machine learning, and linear algebra is not the first step, but perhaps the second or third. Practitioners Study Too Much Linear Algebra When practitioners do circle back to study linear algebra, they learn far more of the field than is required for or relevant to machine learning. Linear algebra is a large field of study that has tendrils into engineering, physics and quantum physics. There are also theorems and derivations for nearly everything, most of which will not help you get better skill from or a deeper understanding of your machine learning model. Only a specific subset of linear algebra is required, though you can always go deeper once you have the basics.
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值