1. 相关的基本概念
-
似然函数:
L ( θ ) = L ( x 1 , . . . , x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) , θ ∈ Θ L(\theta) = L(x_1, ..., x_n ; \theta) = \prod_{i =1}^{n}p(x_i;\theta), \theta \in \Theta L(θ)=L(x1,...,xn;θ)=i=1∏np(xi;θ),θ∈Θ
上述概率密度函数称为参数 θ \theta θ相对于样本集 x x x的似然函数(Likehood function),记作 L ( θ ) L(\theta) L(θ)。上述公式表示的是在概率密度函数的参数是 θ \theta θ时,得到 x x x这组样本的概率,其中 x x x已知, θ \theta θ未知,所以上述似然函数是一个关于参数 θ \theta θ的函数。 -
凸函数:
设 f f f 是定义域为实数的函,如果对于所有的实数 x x x, f ( x ) f(x) f(x) 的二次导数大于等于0,那么 f f f 是凸函数,只大于0时称之为严格凸函数。 如果变量 x \boldsymbol x x 是向量时,如果其hessian矩阵H是半正定的,那么f是凸函数。hessian矩阵说明:
一个函数 f ( x ) f(\boldsymbol x) f(x) 在 x = x 0 \boldsymbol x=\boldsymbol x_0 x=x0处具有n阶导,对函数 f ( x ) = f ( x 1 , x 2 , . . . , x n ) f({\boldsymbol x}) = f(x_1, x_2, ..., x_n) f(x)=f(x1,x2,...,xn) 在 点 x 0 \boldsymbol x_0 x0 处进行泰勒展开得到下式:
f ( x ) = f ( x 0 ) + ∇ f ( x 0 ) T Δ x + 1 2 ! Δ x T G ( x 0 ) Δ x + o ( ∣ Δ x ∣ 2 ) f({\mathbf{x}}) = f({\mathbf{x_0}}) + \nabla f(\mathbf{x_0})^T \Delta {\mathbf{x}} + \frac{1}{2!}\Delta\mathbf{x}^{T}G(\mathbf{x_0})\Delta {\mathbf{x}} + o({\left | \Delta \mathbf{x}\right |} ^ {2}) f(x)=f(x0)+∇f(x0)TΔx+2!1ΔxTG(x0)Δx+o(∣Δx∣2)
其中:
G ( x ) = [ ∂ 2 f ∂ x 1 2 ∂ 2 f ∂ x 1 ∂ x 2 ∂ 2 f ∂ x 2 ∂ x 1 ∂ 2 f ∂ x 2 2 ] , Δ x = ( Δ x 1 Δ x 2 ) G(\mathbf{x}) = \begin{bmatrix} \frac{ {\partial ^ 2}f}{ {\partial}{x_1}^2} & \frac{ {\partial ^ 2}f}{ {\partial}{x_1}{\partial}{x_2}}\\ \frac{ {\partial ^ 2}f}{ {\partial}{x_2}{\partial}{x_1}} & \frac{ {\partial ^ 2}f}{ {\partial}{x_2}^2} \end{bmatrix} \text , \Delta \mathbf{x} = \begin{pmatrix} \Delta x_1\\ \Delta x_2 \end{pmatrix} G(x)=[∂x12∂2f∂x2∂x