1.机器学习数学基础

基本内容

微积分

线性代数

概率论与数理统计

凸优化

微积分

1.极限定义:

数学记号
lim ⁡ x → x 0 f ( x ) = L \underset{x\to {{x}_{0}}}{\mathop{\lim }}f(x)=L xx0limf(x)=L
精确定义
对 于 任 意 正 数 ϵ > 0 , 存 在 正 数 δ , 使 得 任 何 满 足 ∣ x − x 0 ∣ < δ 的 x , 都 有 ∣ f ( x ) − L ∣ < ϵ . 对于任意正数\epsilon>0,存在正数\delta,使得任何满足| x -x_{0}|<\delta的x,都有 | f(x)-L|<\epsilon. ϵ>0δ使xx0<δx,f(x)L<ϵ.

2.导数定义:

导数的概念:
f ′ ( x 0 ) = lim ⁡ x → x 0   f ( x ) − f ( x 0 ) x − x 0 f'({{x}_{0}})=\underset{x\to {{x}_{0}}}{\mathop{\lim }}\,\frac{f(x)-f({{x}_{0}})}{x-{{x}_{0}}} f(x0)=xx0limxx0f(x)f(x0) (1)
函数导数的本质:通过极限的概念对函数的局部线性逼近

3.泰勒公式

设函数 f ( x ) f(x) f(x)在点 x 0 {{x}_{0}} x0处的某邻域内具有 n + 1 n+1 n+1阶导数,则对该邻域内异于 x 0 {{x}_{0}} x0的任意点 x x x,在 x 0 {{x}_{0}} x0 x x x之间至少存在一个 ξ \xi ξ,使得:
f ( x ) = f ( x 0 ) + f ′ ( x 0 ) ( x − x 0 ) + 1 2 ! f ′ ′ ( x 0 ) ( x − x 0 ) 2 + ⋯ f(x)=f({{x}_{0}})+{f}'({{x}_{0}})(x-{{x}_{0}})+\frac{1}{2!}{f}''({{x}_{0}}){{(x-{{x}_{0}})}^{2}}+\cdots f(x)=f(x0)+f(x0)(xx0)+2!1f(x0)(xx0)2+
+ f ( n ) ( x 0 ) n ! ( x − x 0 ) n + R n ( x ) +\frac{{{f}^{(n)}}({{x}_{0}})}{n!}{{(x-{{x}_{0}})}^{n}}+{{R}_{n}}(x) +n!f(n)(x0)(xx0)n+Rn(x)
其中 R n ( x ) = f ( n + 1 ) ( ξ ) ( n + 1 ) ! ( x − x 0 ) n + 1 {{R}_{n}}(x)=\frac{{{f}^{(n+1)}}(\xi )}{(n+1)!}{{(x-{{x}_{0}})}^{n+1}} Rn(x)=(n+1)!f(n+1)(ξ)(xx0)n+1称为 f ( x ) f(x) f(x)在点 x 0 {{x}_{0}} x0处的 n n n阶泰勒余项。

x 0 = 0 {{x}_{0}}=0 x0=0,则 n n n阶泰勒公式
f ( x ) = f ( 0 ) + f ′ ( 0 ) x + 1 2 ! f ′ ′ ( 0 ) x 2 + ⋯ + f ( n ) ( 0 ) n ! x n + R n ( x ) f(x)=f(0)+{f}'(0)x+\frac{1}{2!}{f}''(0){{x}^{2}}+\cdots +\frac{{{f}^{(n)}}(0)}{n!}{{x}^{n}}+{{R}_{n}}(x) f(x)=f(0)+f(0)x+2!1f(0)x2++n!f(n)(0)xn+Rn(x)……(1)
其中 R n ( x ) = f ( n + 1 ) ( ξ ) ( n + 1 ) ! x n + 1 {{R}_{n}}(x)=\frac{{{f}^{(n+1)}}(\xi )}{(n+1)!}{{x}^{n+1}} Rn(x)=(n+1)!f(n+1)(ξ)xn+1 ξ \xi ξ在0与 x x x之间.(1)式称为麦克劳林公式

线性代数

1.线性空间与基:
实系数线性空间是一个由向量组成的集合, 向量之间可以做加减
法, 向量与实数之间可以做乘法, 而且这些加,减,乘运算要求满
足常见的交换律和结合律. 我们也可以类似地定义其他系数的线
性空间。
2. n \mathbf{n} n维向量空间的基变换公式及过渡矩阵

α 1 , α 2 , ⋯   , α n \alpha_{1},\alpha_{2},\cdots,\alpha_{n} α1,α2,,αn β 1 , β 2 , ⋯   , β n \beta_{1},\beta_{2},\cdots,\beta_{n} β1,β2,,βn是向量空间 V V V的两组基,则基变换公式为:

( β 1 , β 2 , ⋯   , β n ) = ( α 1 , α 2 , ⋯   , α n ) [ c 11 c 12 ⋯ c 1 n c 21 c 22 ⋯ c 2 n ⋯ ⋯ ⋯ ⋯ c n 1 c n 2 ⋯ c n n ] = ( α 1 , α 2 , ⋯   , α n ) C (\beta_{1},\beta_{2},\cdots,\beta_{n}) = (\alpha_{1},\alpha_{2},\cdots,\alpha_{n})\begin{bmatrix} c_{11}& c_{12}& \cdots & c_{1n} \\ c_{21}& c_{22}&\cdots & c_{2n} \\ \cdots & \cdots & \cdots & \cdots \\ c_{n1}& c_{n2} & \cdots & c_{{nn}} \\\end{bmatrix} = (\alpha_{1},\alpha_{2},\cdots,\alpha_{n})C (β1,β2,,βn)=(α1,α2,,αn)c11c21cn1c12c22cn2c1nc2ncnn=(α1,α2,,αn)C

其中 C C C是可逆矩阵,称为由基 α 1 , α 2 , ⋯   , α n \alpha_{1},\alpha_{2},\cdots,\alpha_{n} α1,α2,,αn到基 β 1 , β 2 , ⋯   , β n \beta_{1},\beta_{2},\cdots,\beta_{n} β1,β2,,βn的过渡矩阵。

3.坐标变换公式

若向量 γ \gamma γ在基 α 1 , α 2 , ⋯   , α n \alpha_{1},\alpha_{2},\cdots,\alpha_{n} α1,α2,,αn与基 β 1 , β 2 , ⋯   , β n \beta_{1},\beta_{2},\cdots,\beta_{n} β1,β2,,βn的坐标分别是
X = ( x 1 , x 2 , ⋯   , x n ) T X = {(x_{1},x_{2},\cdots,x_{n})}^{T} X=(x1,x2,,xn)T

Y = ( y 1 , y 2 , ⋯   , y n ) T Y = \left( y_{1},y_{2},\cdots,y_{n} \right)^{T} Y=(y1,y2,,yn)T 即: γ = x 1 α 1 + x 2 α 2 + ⋯ + x n α n = y 1 β 1 + y 2 β 2 + ⋯ + y n β n \gamma =x_{1}\alpha_{1} + x_{2}\alpha_{2} + \cdots + x_{n}\alpha_{n} = y_{1}\beta_{1} +y_{2}\beta_{2} + \cdots + y_{n}\beta_{n} γ=x1α1+x2α2++xnαn=y1β1+y2β2++ynβn,则向量坐标变换公式为 X = C Y X = CY X=CY Y = C − 1 X Y = C^{- 1}X Y=C1X,其中 C C C是从基 α 1 , α 2 , ⋯   , α n \alpha_{1},\alpha_{2},\cdots,\alpha_{n} α1,α2,,αn到基 β 1 , β 2 , ⋯   , β n \beta_{1},\beta_{2},\cdots,\beta_{n} β1,β2,,βn的过渡矩阵。

4. n \mathbf{n} n个变量 x 1 , x 2 , ⋯   , x n \mathbf{x}_{\mathbf{1}}\mathbf{,}\mathbf{x}_{\mathbf{2}}\mathbf{,\cdots,}\mathbf{x}_{\mathbf{n}} x1,x2,,xn的二次齐次函数

f ( x 1 , x 2 , ⋯   , x n ) = ∑ i = 1 n ∑ j = 1 n a i j x i y j f(x_{1},x_{2},\cdots,x_{n}) = \sum_{i = 1}^{n}{\sum_{j =1}^{n}{a_{{ij}}x_{i}y_{j}}} f(x1,x2,,xn)=i=1nj=1naijxiyj,其中 a i j = a j i ( i , j = 1 , 2 , ⋯   , n ) a_{{ij}} = a_{{ji}}(i,j =1,2,\cdots,n) aij=aji(i,j=1,2,,n),称为 n n n元二次型,简称二次型. 若令 x =   [ x 1 x 1 ⋮ x n ] , A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋯ ⋯ ⋯ ⋯ a n 1 a n 2 ⋯ a n n ] x = \ \begin{bmatrix}x_{1} \\ x_{1} \\ \vdots \\ x_{n} \\ \end{bmatrix},A = \begin{bmatrix} a_{11}& a_{12}& \cdots & a_{1n} \\ a_{21}& a_{22}& \cdots & a_{2n} \\ \cdots &\cdots &\cdots &\cdots \\ a_{n1}& a_{n2} & \cdots & a_{{nn}} \\\end{bmatrix} x= x1x1xn,A=a11a21an1a12a22an2a1na2nann,这二次型 f f f可改写成矩阵向量形式 f = x T A x f =x^{T}{Ax} f=xTAx。其中 A A A称为二次型矩阵,因为 a i j = a j i ( i , j = 1 , 2 , ⋯   , n ) a_{{ij}} =a_{{ji}}(i,j =1,2,\cdots,n) aij=aji(i,j=1,2,,n),所以二次型矩阵均为对称矩阵,且二次型与对称矩阵一一对应,并把矩阵 A A A的秩称为二次型的秩。

5.惯性定理,二次型的标准形和规范形

(1) 惯性定理

对于任一二次型,不论选取怎样的合同变换使它化为仅含平方项的标准型,其正负惯性指数与所选变换无关,这就是所谓的惯性定理。

(2) 标准形

二次型 f = ( x 1 , x 2 , ⋯   , x n ) = x T A x f = \left( x_{1},x_{2},\cdots,x_{n} \right) =x^{T}{Ax} f=(x1,x2,,xn)=xTAx经过合同变换 x = C y x = {Cy} x=Cy化为 f = x T A x = y T C T A C f = x^{T}{Ax} =y^{T}C^{T}{AC} f=xTAx=yTCTAC

y = ∑ i = 1 r d i y i 2 y = \sum_{i = 1}^{r}{d_{i}y_{i}^{2}} y=i=1rdiyi2称为 f ( r ≤ n ) f(r \leq n) f(rn)的标准形。在一般的数域内,二次型的标准形不是唯一的,与所作的合同变换有关,但系数不为零的平方项的个数由 r ( A ) r(A) r(A)唯一确定。

(3) 规范形

任一实二次型 f f f都可经过合同变换化为规范形 f = z 1 2 + z 2 2 + ⋯ z p 2 − z p + 1 2 − ⋯ − z r 2 f = z_{1}^{2} + z_{2}^{2} + \cdots z_{p}^{2} - z_{p + 1}^{2} - \cdots -z_{r}^{2} f=z12+z22+zp2zp+12zr2,其中 r r r A A A的秩, p p p为正惯性指数, r − p r -p rp为负惯性指数,且规范型唯一。

概率论与数理统计

1.随机变量及概率分布
取值带有随机性的变量,严格地说是定义在样本空间上,取值于实数的函数称为随机变量,概率分布通常指分布函数或分布律.
离散随机变量
假设随机变量 X 的取值域为 { x i } i = 1 ∞ \left\{ x_i \right\}^\infty_{i=1} {xi}i=1,那么对于任何一个
x i x_i xi,事件 X = x i X = x_i X=xi 的概率记为 P ( x i ) P(x_i) P(xi).
对于 Ω Ω 的任何一个子集 { x k i } i = 1 ∞ \left\{ x_{k_i }\right\}^\infty_{i=1} {xki}i=1,事件 X ∈ S X ∈ S XS 的概率为
P ( S ) = ∑ i = 1 ∞ P ( x i ) P(S) = \sum_{i=1}^\infty P(x_i) P(S)=i=1P(xi)
对于离散随机变量,概率为概率函数的求和.
连续随机变量
假设随机变量 X X X 的取值域为 R R R,那么对于几乎所有 x ∈ R x ∈ R xR, 事件
X = x X = x X=x 的概率 P ( X = x ) P(X = x) P(X=x) 都等于 0. 所以我们转而定义概率密度
函数 f : R → [ 0 , ∞ ) f : R → [0, ∞) f:R[0,). 对于任何区间 ( a , b ) (a, b) (a,b), 事件 X ∈ ( a , b ) X ∈ (a, b) X(a,b) 的概
率为 P ( ( a , b ) ) = ∫ a b f ( x ) d x P((a, b)) = ∫^b_a f(x)dx P((a,b))=abf(x)dx

  • 对于连续型随机变量,概率为概率密度函数的积分.
  • 不论是离散还是连续型随机变量, 概率函数和概率密度函数
    的定义域即为这个随机变量的值域.

2.分布函数的概念与性质

定义: F ( x ) = P ( X ≤ x ) , − ∞ < x < + ∞ F(x) = P(X \leq x), - \infty < x < + \infty F(x)=P(Xx),<x<+

(1) 0 ≤ F ( x ) ≤ 1 0 \leq F(x) \leq 1 0F(x)1

(2) F ( x ) F(x) F(x)单调不减

(3) 右连续 F ( x + 0 ) = F ( x ) F(x + 0) = F(x) F(x+0)=F(x)

(4) F ( − ∞ ) = 0 , F ( + ∞ ) = 1 F( - \infty) = 0,F( + \infty) = 1 F()=0,F(+)=1

3.条件分布
(1)条件概率:
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(BA)=P(A)P(AB),表示 A A A发生的条件下, B B B发生的概率。

(2)全概率公式:
P ( A ) = ∑ i = 1 n P ( A ∣ B i ) P ( B i ) , B i B j = ∅ , i ≠ j , ⋃ n i = 1   B i = Ω P(A)=\sum\limits_{i=1}^{n}{P(A|{{B}_{i}})P({{B}_{i}}),{{B}_{i}}{{B}_{j}}}=\varnothing ,i\ne j,\underset{i=1}{\overset{n}{\mathop{\bigcup }}}\,{{B}_{i}}=\Omega P(A)=i=1nP(ABi)P(Bi),BiBj=,i=j,i=1nBi=Ω

(3) Bayes公式:

P ( B j ∣ A ) = P ( A ∣ B j ) P ( B j ) ∑ i = 1 n P ( A ∣ B i ) P ( B i ) , j = 1 , 2 , ⋯   , n P({{B}_{j}}|A)=\frac{P(A|{{B}_{j}})P({{B}_{j}})}{\sum\limits_{i=1}^{n}{P(A|{{B}_{i}})P({{B}_{i}})}},j=1,2,\cdots ,n P(BjA)=i=1nP(ABi)P(Bi)P(ABj)P(Bj),j=1,2,,n
注:上述公式中事件 B i {{B}_{i}} Bi的个数可为可列个。

凸优化

简介
优化问题的一般形式
最小化: f 0 ( x ) f_0(x) f0(x)
条件: f i ( x ) ≤ b i , i = 1 , ⋅ ⋅ ⋅ , m . f_i(x) ≤ b_i , i = 1, · · · , m. fi(x)bi,i=1,,m.
其中 f 0 ( x ) f_0(x) f0(x) 为目标函数,条件里的不等式是限制条件.
凸优化问题的一般形式
一个优化问题如果满足如下条件则为凸优化问题

  • 凸优化问题的条件, f 0 , f 1 , ⋅ ⋅ ⋅ , f m f_0, f_1, · · · , f_m f0,f1,,fm 都是凸函数.
  • 凸优化问题的特点, 局部最优等价于全局最优.

举例
极大似然估计
如果 L ( µ , σ ) L(µ, σ) L(µ,σ) 是一个极大似然估计问题中的似然函数,其中 µ , σ µ, σ µ,σ
分别是期望和方差,那么极大似然估计的问题转化为
最小化: − L ( µ , σ ) -L(µ, σ) L(µ,σ)
条件: σ ≥ 0 σ ≥ 0 σ0
最小二乘法
如果 A n × k A_{n×k} An×k 是一个矩阵, b ∈ R n b ∈ R_n bRn 是一个向量, 对于 x ∈ R k x ∈ R_k xRk
最小化: f 0 ( x ) = ∣ A x − b ∣ 2 f_0(x) = |Ax -b|^2 f0(x)=Axb2

凸集合与凸函数
凸集合定义
如果一个集合 Ω Ω 中任何两个点之间的线段上任何一个点还属于
Ω Ω , 那么 Ω Ω 就是一个凸集合.i.e.
λ x 1 + ( 1 − λ ) x 2 ∈ Ω , ∀ x 1 , x 2 ∈ Ω , λ ∈ ( 0 , 1 ) λx_1 + (1 - λ)x_2 ∈ Ω, ∀x_1, x_2 ∈ Ω, λ ∈(0,1) λx1+(1λ)x2,x1,x2,λ(0,1)
凸函数定义
如果一个函数 f f f 定义域 Ω Ω 是凸集,而且对于任何两点. 以及两
点之间线段上任意一个点都有
f ( λ x 1 + ( 1 − λ ) x 2 ) ≤ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) ∀ x 1 , x 2 ∈ Ω , λ ∈ ( 0 , 1 ) f(λx_1 + (1 - λ)x_2) ≤ λf(x_1) + (1 -λ)f(x_2) ∀x_1, x_2 ∈ Ω, λ ∈ (0, 1) f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2)x1,x2,λ(0,1)
凸组合
对于任何 n n n 个点 { x i } i = 1 n , 以 及 权 重 系 数 { w i } i = 1 n \left\{ x_i \right\}_{i=1}^n, 以及权重系数 \left\{ w_i \right\}_{i=1}^n {xi}i=1n,{wi}i=1n. 若权重系数非
w i ≥ 0 w_i ≥ 0 wi0而且 ∑ i = 1 n w i = 1 \sum^n_{i=1}w_i=1 i=1nwi=1
,则线性组合 S = ∑ i = 1 n w i x i S = ∑^n_{i=1} w_ix_i S=i=1nwixi
为一个凸组合.
凸集合性质
假 设 Ω 是 一 个 凸 集 合 , 那 么 Ω 任 意 n 个 点 的 凸 组 合 仍 包 含 于 Ω . 假设 Ω 是一个凸集合,那么 Ω 任意 n 个点的凸组合仍包含于 Ω. n.
凸函数性质:琴生 (Jensen) 不等式
如 果 f : Ω → R 是 一 个 凸 函 数 , 则 对 于 任 何 { x i ∈ Ω } i = 1 n , 以 及 凸 组 合 ∑ i = 1 n w i x i 都 有 如果 f : Ω → R 是一个凸函数,则对于任何 \left\{x_i ∈ Ω\right\}^n_{i=1}, 以及凸 组合∑^n_{i=1} w_ix_i 都有 f:R{xi}i=1n,i=1nwixi
∑ i = 1 n w i f ( x i ) ≥ f ( ∑ i = 1 n w i x i ) ∑^n_{i=1} w_if(x_i) ≥ f(∑^n_{i=1} w_ix_i) i=1nwif(xi)f(i=1nwixi)
凸优化问题求解 (KKT)
我们来看一下如果强对偶性满足的话,这些最优化点应该满足何
种条件. 这一部分中我们假定所有的函数都是可微函数.
如果 x ∗ , ( λ ∗ , ν ∗ ) x^∗,(λ^∗ , ν^∗) x,(λ,ν)分别是原问题与对偶问题的最优解,那么首先
这些点应该满足可行域条件

  • f i ( x ∗ ) ≤ 0 f_i(x^∗) ≤ 0 fi(x)0
  • h i ( x ∗ ) = 0 h_i(x^∗) = 0 hi(x)=0
  • λ i ∗ ≥ 0 λ^∗_i ≥0 λi0

其次我们已经知道
d ∗ = g ( λ ∗ , ν ∗ ) d^∗ = g(λ^∗ , ν^∗) d=g(λ,ν)
≤ f 0 ( x ∗ ) + ∑ i = 1 m λ i ∗ f i ( x ∗ ) + ∑ i = 1 p ν i ∗ h i ( x ∗ ) ≤ f_0(x^∗ ) +∑^m_{i=1} λ^∗_i f_i(x^∗ ) +∑^p_{i=1} ν^∗_i h_i(x^∗) f0(x)+i=1mλifi(x)+i=1pνihi(x)
= f 0 ( x ∗ ) + ∑ i = 1 m λ i ∗ f i ( x ∗ ) = f_0(x^∗ ) +∑^m_{i=1} λ^∗_i f_i(x^∗) =f0(x)+i=1mλifi(x)
≤ f 0 ( x ∗ ) = p ∗ ≤ f_0(x^∗) = p^∗ f0(x)=p
于 是 d ∗ = p ∗ 意 味 着 上 述 不 等 式 全 都 是 等 式 . 于是 d^∗ = p^∗ 意味着上述不等式全都是等式. d=p.
凸优化问题求解 (KKT)
KKT 条件
f i ( x ∗ ) ≤ 0 , i = 1 , ⋅ ⋅ ⋅ , m f_i(x^∗) ≤ 0, i = 1, · · · , m fi(x)0,i=1,,m
h i ( x ∗ ) = 0 , i = 1 , ⋅ ⋅ ⋅ , p h_i(x^∗ ) = 0, i = 1,· · · , p hi(x)=0,i=1,,p
λ i ∗ ≥ 0 , i = 1 , ⋅ ⋅ ⋅ , m λ^∗_i ≥ 0, i = 1, · · · , m λi0,i=1,,m
λ i ∗ f i ( x ∗ ) = 0 , i = 1 , ⋅ ⋅ ⋅ , m λ^∗_i f_i(x^∗ ) = 0, i = 1, · · · , m λifi(x)=0,i=1,,m
∇ x L ( x ∗ , λ ∗ , ν ∗ ) = 0 ∇_xL(x^∗ , λ^∗ , ν^∗ ) = 0 xL(x,λ,ν)=0
KKT 条件使用
对于凸优化问题,KKT 条件是 x ∗ , ( λ ∗ , ν ∗ ) x^∗, (λ^∗ , ν^∗) x,(λ,ν)分别作为原问题和
对偶问题的最优解的充分必要条件.
对于非凸优化问题,KKT 条件仅仅是必要而非充分.
4.Newton法:
牛顿法是一种求解局部极值的算法

  • 这种方法只能寻找局部极值
  • 这种方法要求必须给出一个初始点 x 0 x_0 x0
  • 数学原理:牛顿法使用二阶逼近
  • 牛顿法对局部凸的函数找到极小值,对局部凹的函数找到极大值,对局部不凸不凹的可能会找到鞍点。
  • 牛顿法要求估计二阶导数.
  • 牛顿法:二次逼近
    首先在初始点 x 0 x_0 x0 处,写出二阶泰勒级数
    f ( x ) = f ( x 0 ) + f ′ ( x 0 ) ( x − x 0 ) + 1 2 ! f ′ ′ ( x 0 ) ( x − x 0 ) 2 + o ( x − x 0 ) 2 f(x)=f({{x}_{0}})+{f}'({{x}_{0}})(x-{{x}_{0}})+\frac{1}{2!}{f}''({{x}_{0}}){{(x-{{x}_{0}})}^{2}}+o(x-x_0)^2 f(x)=f(x0)+f(x0)(xx0)+2!1f(x0)(xx0)2+o(xx0)2

Δ x = x − x 0 \Delta x=x-x_0 Δx=xx0,我们知道关于 ∆ x ∆x x 的二次函数 g ( ∆ x ) g(∆x) g(x) 的极值点为 − f ′ ( x 0 ) f ′ ′ ( x 0 ) -\frac{f\prime(x_0)}{f\prime\prime(x_0)} f(x0)f(x0)
那么本着逼近的精神 f ( x ) f(x) f(x) 的极值点估计在 x 0 − f ′ ( x 0 ) f ′ ′ ( x 0 ) x_0-\frac{f\prime(x_0)}{f\prime\prime(x_0)} x0f(x0)f(x0)附近,于是定义
x 1 = x 0 − f ′ ( x 0 ) f ′ ′ ( x 0 ) x_1=x_0-\frac{f\prime(x_0)}{f\prime\prime(x_0)} x1=x0f(x0)f(x0) ,并重复此步骤得到序列
x n = x n − 1 − f ′ ( x n − 1 ) f ′ ′ ( x n − 1 ) x_n=x_{n-1}-\frac{f\prime(x_{n-1})}{f\prime\prime(x_{n-1})} xn=xn1f(xn1)f(xn1)
当初始点选的比较好的时候 l i m x → ∞ x n \underset{x \rightarrow \infty}{lim}x_n xlimxn收敛于一个局部极值

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值