引言
本系列博客旨在为机器学习(深度学习)提供数学理论基础。因此内容更为精简,适合二次学习的读者快速学习或查阅。
1、导数的概念
定义1:设函数 y = f ( x ) y=f(x) y=f(x) 在点 x 0 x_{0} x0 的某个邻域内有定义,当自变量 x x x 在 x 0 x_{0} x0 处取得增量 Δ x \Delta x Δx (点 x 0 + Δ x x_{0}+\Delta x x0+Δx 仍在该邻域内)时,相应地,因变量取得增量 Δ y = f ( x 0 + Δ x ) − f ( x 0 ) \Delta y=f(x_{0}+\Delta x)-f(x_{0}) Δy=f(x0+Δx)−f(x0) ;如果 Δ y \Delta y Δy 与 Δ x \Delta x Δx 之比当 Δ x → 0 \Delta x\to0 Δx→0 时的极限存在,那么称函数 y = f ( x ) y=f(x) y=f(x) 在点 x 0 x_{0} x0 处可导,并称这个极限为函数 y = f ( x ) y=f(x) y=f(x) 在点 x 0 x_{0} x0 处的导数,记为 f ′ ( x 0 ) f'(x_{0}) f′(x0) ,即 f ′ ( x 0 ) = lim Δ x → 0 Δ y Δ x = lim Δ x → 0 f ( x 0 + Δ x ) − f ( x 0 ) Δ x f'(x_{0})=\lim_{\Delta x\to0}\frac{\Delta y}{\Delta x}=\lim_{\Delta x\to0}\frac{f(x_{0}+\Delta x)-f(x_{0})}{\Delta x} f′(x0)=limΔx→0ΔxΔy=limΔx→0Δxf(x0+Δx)−f(x0) ,也可记作 y ′ ∣ x = x 0 y'|_{x=x_{0}} y′∣x=x0, d y d x ∣ x = x 0 \frac{dy}{dx}|_{x=x_{0}} dxdy∣x=x0 或 d f ( x ) d x ∣ x = x 0 \frac{df(x)}{dx}|_{x=x_{0}} dxdf(x)∣x=x0 。
定义2:根据定义1可知函数 f ( x ) f(x) f(x) 在点 x 0 x_{0} x0 处的导数 f ′ ( x 0 ) f'(x_{0}) f′(x0) 是一个极限,而极限存在的充分必要条件是左、右极限都存在且相等,因此 f ′ ( x 0 ) f'(x_{0}) f′(x0) 存在即 f ( x ) f(x) f(x) 在点 x 0 x_{0} x0 处可导的充分必要条件是左、右极限 lim h → 0 − f ( x 0 + h ) − f ( x 0 ) h \lim_{h\to0^{-}}\frac{f(x_{0}+h)-f(x_{0})}{h} limh→0−hf(x0+h)−f(x0) 及 lim h → 0 + f ( x 0 + h ) − f ( x 0 ) h \lim_{h\to0^{+}}\frac{f(x_{0}+h)-f(x_{0})}{h} limh→0+hf(x0+h)−f(x0) 都存在且相等,这两个极限分别称为函数 f ( x ) f(x) f(x) 在点 x 0 x_{0} x0 处的左导数和右导数,记作 f − ′ ( x 0 ) f'_{-}(x_{0}) f−′(x0) 及 f + ′ x 0 f'_{+}{x_{0}} f+′x0 ,左导数和右导数统称为单侧导数,
定义3:如果函数 y = f ( x ) y=f(x) y=f(x) 在开区间 I I I 内处处可导,此时对于任一 x ∈ I x\in I x∈I ,都对应着 f ( x ) f(x) f(x) 的一个确定的导数值,这样就构成了一个新的函数,这个函数叫做原来函数 y = f ( x ) y=f(x) y=f(x) 的导函数,记作 y ′ y' y′ , f ′ ( x ) f'(x) f′(x) , d y d x \frac{dy}{dx} dxdy ,或 d f ( x ) d x \frac{df(x)}{dx} dxdf(x) 。
性质:
1)函数
f
(
x
)
f(x)
f(x) 在点
x
0
x_{0}
x0 处可导的充分必要条件是左导数
f
−
′
(
x
0
)
f'_{-}(x_{0})
f−′(x0) 和右导数
f
+
′
x
0
f'_{+}{x_{0}}
f+′x0 都存在且相等。
2)如果函数
y
=
f
(
x
)
y=f(x)
y=f(x) 在某点处可导,那么函数在该点必连续,反之,函数在某点连续却不一定在该点可导(由性质1可得)。
2、基本初等函数的导数公式
C ′ = 0 C'=0 C′=0 ( x μ ) ′ = μ x μ − 1 (x^{\mu})'=\mu x^{\mu-1} (xμ)′=μxμ−1 sin ′ x = cos x \sin' x=\cos x sin′x=cosx cos ′ x = − sin x \cos'x=-\sin x cos′x=−sinx ( a x ) ′ = a x ln a ( a > 0 , a ≠ 1 ) (a^{x})'=a^{x}\ln a(a>0,a\neq1) (ax)′=axlna(a>0,a=1) ( e x ) ′ = e x (e^{x})'=e^{x} (ex)′=ex ( log a x ) ′ = 1 x ln a ( a > 0 , a ≠ 1 ) (\log_{a}x)'=\frac{1}{x\ln a}(a>0,a\neq1) (logax)′=xlna1(a>0,a=1) ln ′ x = 1 x \ln' x=\frac{1}{x} ln′x=x1 arcsin ′ x = 1 1 − x 2 \arcsin'x=\frac{1}{\sqrt{1-x^{2}}} arcsin′x=1−x21 arccos ′ x = − 1 1 − x 2 \arccos'x=-\frac{1}{\sqrt{1-x^{2}}} arccos′x=−1−x21 arctan ′ x = 1 1 + x 2 \arctan'x=\frac{1}{1+x^{2}} arctan′x=1+x21 a r c c o t ′ x = − 1 1 + x 2 arccot'x=-\frac{1}{1+x^{2}} arccot′x=−1+x21
3、函数的求导法则
1)初等函数的求导法则,如果函数
u
=
u
(
x
)
u=u(x)
u=u(x) 及
v
=
v
(
x
)
v=v(x)
v=v(x) 都在点
x
x
x 具有导数,那么它们的和、差、积、商(除分母为零的点外)都在点
x
x
x 具有导数,且
(
1
)
[
u
(
x
)
±
v
(
x
)
]
′
=
u
′
(
x
)
±
v
′
(
x
)
;
(1)[u(x)\pm v(x)]'=u'(x)\pm v'(x);
(1)[u(x)±v(x)]′=u′(x)±v′(x);
( 2 ) [ u ( x ) v ( x ) ] ′ = u ′ ( x ) v ( x ) + u ( x ) v ′ ( x ) ; (2)[u(x)v(x)]'=u'(x)v(x)+u(x)v'(x); (2)[u(x)v(x)]′=u′(x)v(x)+u(x)v′(x);
( 3 ) [ u ( x ) v ( x ) ] ′ = u ′ ( x ) v ( x ) − u ( x ) v ′ ( x ) v 2 ( x ) ( v ( x ) ≠ 0 ) 。 (3)[\frac{u(x)}{v(x)}]'=\frac{u'(x)v(x)-u(x)v'(x)}{v^{2}(x)}(v(x)\neq0)。 (3)[v(x)u(x)]′=v2(x)u′(x)v(x)−u(x)v′(x)(v(x)=0)。
2)反函数的求导法则,如果函数 x = f ( y ) x=f(y) x=f(y) 在区间 I y I_{y} Iy 内单调、可导且 f ′ ( y ) ≠ 0 f'(y)\neq0 f′(y)=0 ,那么它的反函数 y = f − 1 ( x ) y=f^{-1}(x) y=f−1(x) 在区间 I x = { x ∣ x = f ( y ) , y ∈ I y } I_{x}=\{x|x=f(y),y\in I_{y}\} Ix={x∣x=f(y),y∈Iy} 内也可导,且 [ f − 1 ( x ) ] ′ = 1 f ′ ( y ) [f^{-1}(x)]'=\frac{1}{f'(y)} [f−1(x)]′=f′(y)1 或 d y d x = 1 d x d y \frac{dy}{dx}=\frac{1}{\frac{dx}{dy}} dxdy=dydx1
3)复合函数的求导法则,如果 u = g ( x ) u=g(x) u=g(x) 在点 x x x 可导,而 y = f ( u ) y=f(u) y=f(u) 在点 u = g ( x ) u=g(x) u=g(x) 可导,那么复合函数 y = f [ g ( x ) ] y=f[g(x)] y=f[g(x)] 在点 x x x 可导,且其导数为 d y d x = f ′ ( u ) ∗ g ′ ( x ) \frac{dy}{dx}=f'(u)*g'(x) dxdy=f′(u)∗g′(x) 或 d y d x = d y d u ∗ d u d x \frac{dy}{dx}=\frac{dy}{du}*\frac{du}{dx} dxdy=dudy∗dxdu
4、高阶导数
定义:函数 y = f ( x ) y=f(x) y=f(x) 的导数 y ′ = f ′ ( x ) y'=f'(x) y′=f′(x) 仍然是 x x x 的函数,我们把 y ′ = f ′ ( x ) y'=f'(x) y′=f′(x) 的导数叫做函数 y = f ( x ) y=f(x) y=f(x) 的二阶导数,记作 y ′ ′ y'' y′′ 或 d 2 y d x 2 \frac{d^{2}y}{dx^{2}} dx2d2y ,类似地,二阶导数的导数,叫做三阶导数,三阶导数的导数叫做四阶导数,一般地, ( n − 1 ) (n-1) (n−1) 阶导数地导数叫做 n n n 阶导数,函数 y = f ( x ) y=f(x) y=f(x) 具有 n n n 阶导数,也常说成函数 f ( x ) f(x) f(x) 为 n n n 阶可导。二阶及二阶以上的导数统称为高阶导数。
5、函数的微分
定义:设函数 y = f ( x ) y=f(x) y=f(x) 在某区间内有定义, x 0 x_{0} x0 及 x 0 + Δ x x_{0}+\Delta x x0+Δx 在这区间内,如果函数的增量 Δ y = f ( x 0 + Δ x ) − f ( x 0 ) \Delta y=f(x_{0}+\Delta x)-f(x_{0}) Δy=f(x0+Δx)−f(x0) 可表示为 Δ y = A Δ x + o ( Δ x ) \Delta y=A\Delta x+o(\Delta x) Δy=AΔx+o(Δx) ,其中 A A A 是不依赖于 Δ x \Delta x Δx 的常数,那么称函数 y = f ( x ) y=f(x) y=f(x) 在点 x 0 x_{0} x0 是可微的,而 A Δ x A\Delta x AΔx 叫做函数 y = f ( x ) y=f(x) y=f(x) 在点 x 0 x_{0} x0 相应于自变量增量 Δ x \Delta x Δx 的微分,记作 d y dy dy ,即 d y = A Δ x dy=A\Delta x dy=AΔx 。
微分运算法则:要计算函数的微分,只要计算函数的导数,再乘自变量的微分即可。