吴恩达机器学习入门笔记0-复习

0 复习

0.1 矩阵论

0.1.1 矩阵的逆
  • 只有方阵才存在逆矩阵
  • 不存在逆矩阵的矩阵称为奇异矩阵
  • 检查特征量中是否存在能被其他特征量表示的特征,有则删去
  • 样本数若少于特征量则不可逆,可用正则化解决
0.1.2 向量内积

[外链图片转存失败(img-s79ObL9E-1568601380446)(E:\Artificial Intelligence Markdown\Machine Learning\pictures\0.1.2 向量内积.png)]

0.1.3 正定矩阵与半正定矩阵

正定矩阵:给定一大小维 n × n n\times n n×n的实对称矩阵A,若对于任意长度为n的非零向量x,有 X T A X > 0 X^TAX>0 XTAX>0恒成立,则矩阵A是一个正定矩阵

半正定矩阵:给定一大小维 n × n n\times n n×n的实对称矩阵A,若对于任意长度为n的非零向量x,有 X T A X ≥ 0 X^TAX\ge0 XTAX0恒成立,则矩阵A是一个半正定矩阵

0.1.4 协方差矩阵 ∑ \sum

X = ( X 1 , X 2 , . . . , X N ) T X=(X_1,X_2,...,X_N)^T X=(X1,X2,...,XN)T为n维随机变量,称矩阵
(0.1) C = ( c i j ) m × n ( c 11 c 12 . . . c 1 n c 21 c 22 . . . c 2 n ⋮ ⋮ ⋮ c n 1 c n 2 . . . c n n ) C=(c_{ij})_{m\times n}\begin{pmatrix} c_{11} & c_{12} & ... & c_{1n} \\ c_{21} & c_{22} & ... & c_{2n} \\ \vdots & \vdots && \vdots \\ c_{n1} & c_{n2} & ... & c_{nn} \end{pmatrix}\tag{0.1} C=(cij)m×nc11c21cn1c12c22cn2.........c1nc2ncnn(0.1)
c i j = C o v ( X i , X j ) = E [ X i − E ( X i ) ] [ X j − E ( X j ) ] c_{ij}=Cov(X_i,X_j)=E[X_i-E(X_i)][X_j-E(X_j)] cij=Cov(Xi,Xj)=E[XiE(Xi)][XjE(Xj)]

  • 性质
  1. 作为实对称矩阵,可以正交对角化,即存在正交矩阵U,使得 U T ∑ U = Λ U^T\sum U=\Lambda UTU=Λ

  2. 作为半正定矩阵,可以进行Cholesky分解,即 ∑ = U T Λ U \sum=U^T\Lambda U =UTΛU,其中U是上三角阵, Λ \Lambda Λ是对角线元素都非负的对角矩阵

    ∑ = U T Λ U = [ U T Λ 1 / 2 ] [ Λ 1 / 2 U ] = [ Λ 1 / 2 U ] T [ Λ 1 / 2 U ] \sum=U^T\Lambda U=[U^T\Lambda^{1/2}][\Lambda^{1/2}U]=[\Lambda^{1/2}U]^T[\Lambda^{1/2}U] =UTΛU=[UTΛ1/2][Λ1/2U]=[Λ1/2U]T[Λ1/2U]

    这样一来,矩阵 ∑ = C T C \sum=C^TC =CTC,其中 C = Λ 1 / 2 U C=\Lambda^{1/2}U C=Λ1/2U

0.1.5 特征值与特征向量

(0 .2) A α = λ α A\alpha=\lambda\alpha\tag{0 .2} Aα=λα(0 .2)

左边用矩阵A将向量 α \alpha α做了一个转换,右边将向量 α \alpha α拉伸了 λ \lambda λ

说明A对向量 α \alpha α变换后,长度拉伸 λ \lambda λ倍,方向不变。

并不是所有的向量都可以被A通过变换拉伸而方向不变,能够被A拉伸且保持方向不变的向量就是A的特征向量,拉伸的倍数就是特征值

0.1.6 奇异值分解(SVD)

设矩阵A为 m × n m\times n m×n矩阵,则A的SVD为: A = U ∑ V T A=U\sum V^T A=UVT

其中U是一个 m × m m\times m m×m的矩阵; ∑ \sum 是一个 m × n m\times n m×n的矩阵,除主对角线上的元素外全为0,主对角线上每个元素称为奇异值;V是一个 n × n n\times n n×n矩阵;U和V是酉矩阵,即满足 U T U = I , V T V = I U^TU=I,V^TV=I UTU=I,VTV=I

0.2 概率论与数理统计

0.2.1 贝叶斯定理

在有限的信息下帮助预测出概率
(0.3) P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) P(A|B)=P(A)\frac{P(B|A)}{P(B)}\tag{0.3} P(AB)=P(A)P(B)P(BA)(0.3)
即后验概率=先验概率×可能性函数

  • 先验概率P(A):不知道B事件发生的前提下A事件发生的概率
  • 可能性函数 P ( B ∣ A ) P ( B ) \frac{P(B|A)}{P(B)} P(B)P(BA):新信息到来后对先验概率的调整因子
  • 后验概率P(A|B):B事件发生后对A事件概率的重新评估
0.2.2 全概率公式

(0.4) P ( B ) = P ( B ∣ A ) P ( A ) + P ( B ∣ A ′ ) P ( A ′ ) P(B)=P(B|A)P(A)+P(B|A')P(A')\tag{0.4} P(B)=P(BA)P(A)+P(BA)P(A)(0.4)

0.2.3 条件独立性

(0.5) P ( X , Y ∣ Z ) = P ( X ∣ Z ) P ( Y ∣ Z ) P(X,Y|Z)=P(X|Z)P(Y|Z)\tag{0.5} P(X,YZ)=P(XZ)P(YZ)(0.5)

当Z发生时,X发生与否与Y发生与否是无关的

0.2.4 极大似然估计

根据统计出的事实推断最有可能出现的情况

0.2.5 高斯分布(正态分布)
  • Gaussian (Normal) distribution

    X ∼ N ( μ , σ 2 ) X\sim\mathcal{N}(\mu,\sigma^2) XN(μ,σ2)

(0.6) p ( x ; μ , σ 2 ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) p(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})\tag{0.6} p(x;μ,σ2)=2π σ1exp(2σ2(xμ)2)(0.6)

曲线中心由均值 μ \mu μ决定,概率峰值位置等于 μ \mu μ

曲线宽度由标准差 σ \sigma σ决定, σ \sigma σ越大,图形越胖越低

μ = 1 m ∑ i = 1 m X ( i ) \mu=\frac{1}{m}\sum^m_{i=1}X^{(i)} μ=m1i=1mX(i) σ 2 = 1 m ∑ i = 1 m ( X ( i ) − μ ) 2 \sigma^2=\frac{1}{m}\sum^m_{i=1}(X^{(i)}-\mu)^2 σ2=m1i=1m(X(i)μ)2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值