概率论
全概率公式
将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题。而这些简单事件组成一个互不相容事件组,最后应用概率的可加性求出最终结果
贝叶斯公式
将先验概率转化为后验概率
P
(
c
/
x
)
=
P
(
x
/
c
)
P
(
c
)
P
(
x
)
P(c/x) = \cfrac{P(x/c)P(c)}{P(x)}
P(c/x)=P(x)P(x/c)P(c)
P(x)可以用全概率公式求,P(x/c)对于独立同分布的属性条件假设(朴素贝叶斯)
中心极限定理:
当n足够大时,样本的均值服从正太分布
独立同分布的中心极限定理
大数定理
随机变量序列的算术平均值向随机变量各数学期望的算术平均值
切比雪夫大数定理
当N很大时,随机变量
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2, ..., X_n
X1,X2,...,Xn 的算数平均值
∑
i
=
1
n
X
i
n
\cfrac{\sum_{i=1}^n{X_i }}{n}
n∑i=1nXi 接近于它们的数学期望的算术平均值
∑
i
=
1
n
E
(
X
i
)
n
\cfrac{\sum_{i=1}^n{E(X_i)}}{n}
n∑i=1nE(Xi)
最大似然估计
最大似然估计提供了一种给定观察数据来评估模型参数的方法,而最大似然估计中的采样满足所有采样都是独立同分布的假设
高数
泰勒级数
泰勒级数可以用来近似计算函数的值
连续 可导 可微的关系
三个中值定理的区别、联系和物理意义
https://zhuanlan.zhihu.com/p/47436090
罗尔定理
拉格朗日中值定理
几何意义是,至少存在一点的切线与端点的连线平行;
物理意义是,至少存在一点的速度与平均速度相等:
柯西中值定理
二维空间中的运动
有类似于拉格朗日中值定理一样的几何意义
方向导数、梯度与梯度下降
https://blog.csdn.net/wo164683812/article/details/90382330
方向导数
那么当我们讨论函数沿任意方向的变化率时,也就引出了方向导数的定义,
即:某一点在某一趋近方向上的导数值
我们不仅要知道函数在坐标轴正方向上的变化率(即偏导数),而且还要设法求得函数在其他特定方向上的变化率。而方向导数就是函数在其他特定方向上的变化率,说白了偏导数其实是方向导数的一种特殊情况。
梯度
是一个矢量,其方向上的方向导数最大,其大小正好是此最大方向导数( 函数沿梯度方向有最大的变化率 )
梯度下降
既然在变量空间的某一点处,函数沿梯度方向具有最大的变化率,那么在优化目标函数的时候,自然是沿着负梯度方向去减小函数值,以此达到我们的优化目标。
线代
矩阵的秩
行秩是A的线性无关的横行的极大数目。
线性相关和线性无关
矩阵的特征值及物理意义
设A是n阶矩阵,如果数
λ
\lambda
λ 和 n 维非零列向量 x 使关系式
A
x
=
λ
x
Ax = \lambda x
Ax=λx
成立,那么这样的数
λ
\lambda
λ称为方阵A的特征值,非零向量 x 称为A的对应于特征值
λ
\lambda
λ 的特征向量
满足方程
∣
A
−
λ
E
∣
=
0
|A-\lambda E|=0
∣A−λE∣=0
的
λ
\lambda
λ 都是矩阵A的特征值
线性空间(向量空间)
给元素装配了加法和数乘的非空集合
线性方程组如何求解
克莱姆法则
有两个前提:
- 一是方程的个数要等于未知量的个数
- 二是系数矩阵的行列式要不等于零
相似矩阵
A 和 B 的特征值和特征多项式相同
A 有 n 个线性无关的特征向量,说明A可以对角化,与对角矩阵相似
实对称矩阵
对称矩阵的性质:
(1)特征值为实数;
(2)属于不同特征值的特征向量正交;
(3)特征值的重数和与之对应的线性无关的特征向量的个数相等;
(4)必存在正交矩阵,将其化为对角矩阵,且对角矩阵对角元素即为特征值.
正交矩阵
- A A T = A T A = E AA^T = A^TA = E AAT=ATA=E
- A T = A − 1 A^T = A^{-1} AT=A−1
二次型
正定二次型(正定矩阵)