绪论和深度学习概述
机器学习分类
名称 | 老师 | 学习方式 | 评价标准 |
---|---|---|---|
有监督学习 | 有老师 | 跟着老师学 | 老师判断 |
无监督学习 | 无老师 | 自学 | 特定标准评价 |
强化学习 | 无老师 | 自学 | 自己评价 |
数学基础
矩阵论
矩阵的基本知识
矩阵 :一个二维数组,常用大写字母表示,比如矩阵A;
张量:0阶张量是标量;1阶张量是矢量;2阶张量是矩阵;3阶及以上叫张量;
矩阵的秩:rank(A)
矩阵的逆:① 是方阵②满秩;则是可逆矩阵;
矩阵的广义逆矩阵:①不是方阵的时候② 是奇异矩阵的时候。若ABA = A,则B是A的广义逆矩阵
矩阵分解
矩阵的特征分解:
A
n
×
n
A {n\times n}
An×n具有n个不同的特征值,那么矩阵A可分解为
A
=
U
∑
U
T
A = U\sum U^T
A=U∑UT;其中:
∑
\sum
∑ =
[
λ
1
0
⋯
0
0
λ
2
⋯
0
0
0
⋱
⋮
0
0
⋯
λ
n
]
\begin{bmatrix} \lambda_1&0&\cdots& 0\\ 0&\lambda_2&\cdots&0\\ 0&0&\ddots&\vdots\\ 0&0&\cdots&\lambda_n \end{bmatrix}
⎣⎢⎢⎢⎡λ10000λ200⋯⋯⋱⋯00⋮λn⎦⎥⎥⎥⎤,U =
[
u
1
,
u
2
,
⋯
,
u
n
]
[u_1,u_2,\cdots,u_n]
[u1,u2,⋯,un],
概率统计
随机变量
- 离散型随机变量
- 连续型随机变量
常见的概率分布
伯努利分布(0—1分布)
- 实验只进行一次
- 实验结果只有两种可能
二项分布
- n次重复的伯努利
- 每次之间相互独立
均匀分布
高斯分布(正态分布)
- 由均值和标准差决定
指数分布
- 无记忆性
- p ( x ) = λ ∗ e − λ x p(x) = \lambda*e^{-\lambda x} p(x)=λ∗e−λx
多变量概率分布
条件概率 P(X|Y)
联合概率 P(X,Y)
P(Y|X) = P ( Y , X ) P ( X ) \displaystyle\frac{P(Y,X)}{P(X)} P(X)P(Y,X) ,其中P(X)>0
先验概率
后验概率
全概率公式
贝叶斯公式
常用的统计量
方差
var(x) = E( X 2 X^2 X2) - E ( X ) 2 {E(X)}^2 E(X)2
协方差
Cov(X,Y) = E(XY) - E(X)E(Y)
信息论
熵
H ( X ) = − ∑ i = 1 n P ( x i ) log 2 P ( x i ) H(X) = -\sum_{i = 1}^nP(x_i)\log_2{P(x_i)} H(X)=−i=1∑nP(xi)log2P(xi),其中X是样本集合, x i x_i xi是某个样本, P ( x i ) P(x_i) P(xi)是 x i x_i xi样本在总样本中占的比重
- H(X)的值越小,X的纯度越高,蕴含的不确定性越少
- 比如均匀分布的熵比非均匀分布大一些
联合熵
- 两个随机变量X和Y的联合分布可以形成联合熵,度量XY的不确定性;
H ( X , Y ) = − ∑ i = 1 n ∑ j = 1 n P ( x i , y i ) log 2 P ( x i , y i ) H(X,Y) = -\sum_{i=1}^n \sum_{j=1}^nP(x_i,y_i)\log_2{P(x_i,y_i)} H(X,Y)=−i=1∑nj=1∑nP(xi,yi)log2P(xi,yi)
条件熵
- 在随机变量X发生的前提下,随机变量Y发生带来的熵,定义为Y的条件熵,用H(Y|X)表示,也就是在已经X的情况下,Y的不确定性
H ( Y ∣ X ) = − ∑ i = 1 n ∑ j = 1 n P ( x i , y i ) log 2 P ( y i ∣ x i ) H(Y|X) = -\sum_{i=1}^n \sum_{j=1}^nP(x_i,y_i)\log_2{P(y_i|x_i)} H(Y∣X)=−i=1∑nj=1∑nP(xi,yi)log2P(yi∣xi)
三个熵之间的关系
- H(Y|X) = H(X,Y) - H(X)
互信息
I(X,Y) = H(X) +H(Y) -H(X,Y)
相对熵
- 描述两个概率分布P、Q差异的一种方法;
- D(P||Q) 表示用概率分布Q来拟合真实分布P,产生的信息损耗;
- 离散形式: D ( P ∣ ∣ Q ) = ∑ P ( x ) log P ( x ) Q ( x ) D(P||Q) = \sum P(x) \log{\displaystyle\frac{P(x)}{Q(x)}} D(P∣∣Q)=∑P(x)logQ(x)P(x)
- 连续形式: D ( P ∣ ∣ Q ) = ∫ P ( x ) log P ( x ) Q ( x ) D(P||Q) = \int P(x) \log{\displaystyle\frac{P(x)}{Q(x)}} D(P∣∣Q)=∫P(x)logQ(x)P(x)
交叉熵
D ( P ∣ ∣ Q ) = ∑ P ( x ) log P ( x ) Q ( x ) = ∑ P ( x ) log P ( x ) − ∑ P ( x ) log Q ( x ) = − H ( P ( x ) ) + ( − ∑ P ( x ) log Q ( x ) ) D(P||Q) = \sum P(x) \log{\displaystyle\frac{P(x)}{Q(x)}}= \sum P(x)\log P(x) -\sum P(x)\log Q(x) = -H(P(x)) + (-\sum P(x)\log Q(x)) D(P∣∣Q)=∑P(x)logQ(x)P(x)=∑P(x)logP(x)−∑P(x)logQ(x)=−H(P(x))+(−∑P(x)logQ(x))
- 其中, − ∑ P ( x ) log Q ( x ) -\sum P(x)\log Q(x) −∑P(x)logQ(x)就叫做交叉熵,记作H(P,Q)
- 由于相对熵 = 交叉熵 + 常数(因为P分布是确定的,他的熵也是确定的常数)
- 经常作为损失函数去评估
最优化估计
最小二乘法
- 最小二乘法就是寻找最小的 ∑ ( 观 测 值 − 理 论 值 ) 2 \sum (观测值-理论值)^2 ∑(观测值−理论值)2(残差平方和)
- 最小二乘法是直接求导找出全局最优;梯度下降是逐次迭代找到局部最优;