文章目录
高等数学
凹凸函数
å
连续和可导的关系(大家最好考虑一下多元函数的情况)
一元函数可导必可微,可微必可导。
多元函数,可偏导不一定可微,可微一定可偏导。可偏导且偏导连续则可微。
一致连续性
在连续区间的任何部分,只要自变量 x , y x,y x,y的值接近到一定程度,就可以使对应的函数值达到所指定的接近程度,且这个接近程度不随自变量 x x x的改变而改变。
设 f ( x ) f(x) f(x)在区间 I I I上有定义,如果 ∣ x − y ∣ < δ , 有 ∣ f ( x ) − f ( y ) ∣ < ϵ |x-y| < \delta,有|f(x)-f(y)| < \epsilon ∣x−y∣<δ,有∣f(x)−f(y)∣<ϵ,则说明 f ( x ) f(x) f(x)在区间 I I I上一致连续。
极值
在函数某个域上取得最大值或者最小值的点的函数值称为极值。而这个点的横坐标成为极值点。
导数的定义
若极限 l = l i m Δ x → 0 Δ y Δ x l~=~lim_{\Delta x \rightarrow 0}\frac{\Delta y}{\Delta x} l = limΔx→0ΔxΔy存在,则称函数 y = f ( x ) y=f(x) y=f(x)在点 x 0 x_0 x0处可导,并称 l l l为 f ( x ) f(x) f(x)在 x 0 x_0 x0处的导数,记作 f ′ ( x 0 ) f'(x_0) f′(x0)。
微分的定义
设函数 y = f ( x ) y=f(x) y=f(x)在点 x 0 x_0 x0的某个邻域内有定义,若存在与 Δ x \Delta x Δx无关的常数 A A A,使 Δ y = A Δ x + o ( Δ x ) \Delta y = A\Delta x + o(\Delta x) Δy=AΔx+o(Δx),则说 f ( x ) f(x) f(x)在点 x 0 x_0 x0处可微,且称 A Δ x A \Delta x AΔx为 y y y或者 f ( x ) f(x) f(x)在 x 0 x_0 x0处的微分,记作 d y dy dy。
反函数存在的条件
函数存在反函数的充要条件是,函数的定义域与值域是一一映射;严格增(减)的函数一定有严格增(减)的反函数。
微分中值定理
描述连续光滑函数在两点之间的光滑性
令 f ( x ) f(x) f(x)为光滑曲线,在其上取任意两点 ( a , ( f ( a ) ) (a,(f(a)) (a,(f(a)), ( b , f ( b ) ) , a < b (b,f(b)), a \lt b (b,f(b)),a<b,则必然存在 a < c < b a \lt c \lt b a<c<b,使得经过 c c c的切线的斜率 f ′ ( c ) = f ( b ) − f ( a ) b − a f'(c) = \frac{f(b)-f(a)}{b-a} f′(c)=b−af(b)−f(a)。
罗尔中值定理
如果函数 f ( x ) f(x) f(x)满足:
- f ( x ) f(x) f(x)在 [ a , b ] [a,b] [a,b]上连续
- f ( x ) f(x) f(x)在 ( a , b ) (a,b) (a,b)上可导
- f ( a ) = f ( b ) f(a) = f(b) f(a)=f(b)
则存在 c ϵ ( a , b ) c \epsilon (a,b) cϵ(a,b), 使得 f ′ ( c ) = 0 f'(c) = 0 f′(c)=0。
拉格朗日中值定理
如果函数 f ( x ) f(x) f(x)满足:
- f ( x ) f(x) f(x)在 [ a , b ] [a,b] [a,b]上连续
- f ( x ) f(x) f(x)在 ( a , b ) (a,b) (a,b)上可导
则存在
c
ϵ
(
a
,
b
)
c \epsilon (a,b)
cϵ(a,b),使得过
c
c
c点的切线的斜率与连接
a
,
b
a,b
a,b两点的割线的斜率相同:
即
f
′
(
c
)
=
f
(
b
)
−
f
(
a
)
b
−
a
f'(c) = \frac{f(b)-f(a)}{b-a}
f′(c)=b−af(b)−f(a)。
柯西中值定理
如果函数 f ( x ) , g ( x ) f(x),g(x) f(x),g(x)满足:
- 在 [ a , b ] [a,b] [a,b]上连续
- 在 ( a , b ) (a,b) (a,b)上可导
- g ′ ( x ) ! = 0 g'(x) != 0 g′(x)!=0
则存在
c
ϵ
(
a
,
b
)
c \epsilon (a,b)
cϵ(a,b),
使
f
(
b
)
−
f
(
a
)
g
(
b
)
−
g
(
a
)
=
f
′
(
c
)
g
′
(
c
)
\frac{f(b)-f(a)}{g(b)-g(a)} = \frac{f'(c)}{g'(c)}
g(b)−g(a)f(b)−f(a)=g′(c)f′(c)。
泰勒级数
用多项式近似逼近原函数
f
(
x
)
f(x)
f(x)。
设函数
f
(
x
)
f(x)
f(x)在
a
a
a处
n
+
1
n+1
n+1次可导,则对任何
a
,
x
ϵ
I
a,x \epsilon I
a,xϵI, 存在介于
a
a
a和
x
x
x之间的
ξ
\xi
ξ,使得:
无穷小量
如果 l i m u = 0 lim~u = 0 lim u=0,则称 u u u为该极限过程中的无穷小量,或简称无穷小。
极限
线代
矩阵的初等变换
- 对调行变换:将矩阵的两行对调
- 倍乘行变换:用非零数乘以矩阵的第 i i i行
- 倍加行变换:将矩阵A的某一行的 k k k倍加到第 j j j行
矩阵的恒等变换
乘以单位矩阵??
奇异矩阵
行列式的值为0的矩阵
矩阵的秩
矩阵的秩是矩阵 A A A中非奇异子阵(非零子式)的最高阶数。
特征值和特征向量(定义和用途)
对于给定的矩阵 A A A,以及向量 v v v和常数 λ \lambda λ。向量 v v v经过矩阵 A A A作用后得到的新的向量与原来的向量在一条直线上,它的长度可能会发生改变。即满足:
A v = λ v Av = \lambda v Av=λv
其中λ是标量,称为其特征值。矩阵A的特征值的数量等于它的秩。有多少个特征值,就有多少个特征向量。
著名的图像处理中的PCA方法,选取特征值最高的k个特征向量来表示一个矩阵,从而达到降维分析+特征显示的方法。
正交矩阵
若实方阵 A T A = E A^TA=E ATA=E,则 A A A为正交矩阵。实方阵 A A A为正交矩阵的充要条件是 A A A的列向量组为标准正交向量组。
等价矩阵(相似与合同)
相似矩阵
对于一个矩阵 A A A,如果矩阵 A A A与矩阵 B B B相似的话,则存在一个矩阵可逆矩阵 P P P使得:
B = P − 1 A P B = P^{-1}AP B=P−1AP
等价矩阵
对于一个矩阵 A A A 如果矩阵 B B B与 A A A等价的话,则存在两个可逆矩阵 P , Q P,Q P,Q,使得:
B = P A Q B = PAQ B=PAQ。
存在可逆矩阵, A A A经过有限次的初等变换得到 B B B。
合同矩阵
对于一个矩阵 A A A,如果矩阵 A A A与矩阵 B B B合同的话,则存在一个可逆矩阵 P P P使得:
B = P T A P B = P^{T}AP B=PTAP
线性相关(定义和用途)
线性相关就是判断一组向量是否可以通过适当的线性组合表示成零向量,线性组合中至少有一个非零因子。
线性无关就是一组向量通过线性组合表示成零向量,线性组合的系数全部为0。
格拉姆-施密特正交化
从一个线性无关的向量组求一个与之等价的正交向量组。
施密特正交化是求欧氏空间正交基的一种方法。从欧氏空间任意线性无关的向量组 α 1 , α 2 , … … , α m α_1,α_2,……,α_m α1,α2,……,αm出发,求得正交向量组 β 1 , β 2 , … … , β m β_1,β_2,……,β_m β1,β2,……,βm,使 α 1 , α 2 , … … , α m α_1,α_2,……,α_m α1,α2,……,αm与向量组 β 1 , β 2 , … … , β m β_1,β_2,……,β_m β1,β2,……,βm等价,再将正交向量组中每个向量经过单位化,就得到一个标准正交向量组,这种方法称为施密特正交化。
概率
简单随机事件
随机事件是指在某次随机试验中,可能出现也可能不出现,而在大量重复实验中具有某种规律性的事件叫作随机事件。
条件概率
概率乘法公式
P ( A B C ) = P ( A ) P ( B ∣ A ) P ( C ∣ A B ) P(ABC) = P(A)P(B|A)P(C|AB) P(ABC)=P(A)P(B∣A)P(C∣AB)
全概率公式
样本空间的划分,将样本空间划分成有穷或者无穷个不相交的随机事件 A 1 , . . . A n A_1,...A_n A1,...An。
若 A 1 , . . . A n A_1,...A_n A1,...An是样本空间Ω的一组可列划分,则对于任意随机事件 B B B,
P ( B ) = P ( B ∣ A 1 ) ∗ P ( A 1 ) + P ( B ∣ A 2 ) ∗ P ( A 2 ) + . . . + P ( B ∣ A n ) ∗ P ( A n ) P(B) = P(B|A_1)*P(A_1) + P(B|A_2)*P(A_2) + ... + P(B|A_n)*P(A_n) P(B)=P(B∣A1)∗P(A1)+P(B∣A2)∗P(A2)+...+P(B∣An)∗P(An)。
贝叶斯公式
边缘分布
边缘分布是指多变量的随机分布中,只包含部分变量的概率分布。
随机变量
对于一个随机实验 E E E,对于它的每个实验结果 ω ϵ Ω \omega \epsilon \Omega ωϵΩ,都有一个实数 X ( ω ) X(\omega) X(ω)与之对应,则称 X ( ω ) X(\omega) X(ω)为一个随机变量。
分布函数
设 X X X为一个随机变量, x x x为一个实数,我们称 F ( x ) = P ( X ⩽ x ) F(x) = P(X\leqslant x) F(x)=P(X⩽x), x ϵ R x \epsilon R xϵR为随机变量 X X X的分布函数。
概率密度函数
描述随机变量的输出值在某一个确定的点的附近的可能性的函数。
F ( x ) = ∫ − ∞ x f ( x )   d x F(x)=\int_{-\infty}^{x} f(x)\,dx F(x)=∫−∞xf(x)dx
随机变量的独立性
设 F ( x , y ) F(x,y) F(x,y), F X ( x ) F_X(x) FX(x), F Y ( y ) F_Y(y) FY(y)分为是二维连续性随机变量 ( X , Y ) (X,Y) (X,Y)的分布函数和边缘分布函数,若对于所有的 x , y x,y x,y,有 F ( x , y ) = F X ( x ) ⋅ F Y ( y ) F(x,y) = F_X(x) \cdot F_Y(y) F(x,y)=FX(x)⋅FY(y),则称随机变量 X X X和 Y Y Y是相互独立的。
数学期望
随机变量的均值。大数定律指出只有当样本数量足够多的时候,样本均值才会无限接近数学期望。
方差
用来度量随机变量的取值相对于其均值的偏离程度。统计中的样本的方差就是每个样本值与全体样本的均值的平均数之差的平方值的平均数。
协方差与相关系数
协方差用来度量两个随机变量的相关性。
C o v ( X , Y ) = E ( X − E X ) E ( Y − E Y ) Cov(X,Y)=E(X-EX)E(Y-EY) Cov(X,Y)=E(X−EX)E(Y−EY)