前言
本人最近整理了一下研究生期间学习内容,为了帮助更多考上研的小伙伴,这里对所学内容进行了一些整理,希望本专栏能够帮助更多的研究牲们更好的打工
本期内容:高等数学基础部分
学前提示:
- 机器学习这边的数学部分,只需要了解,理解即可,计算部分都是交给代码去实现的。所以考研的小伙伴不要看这里的数学。不过为了理解更加透彻, 本系列会引用一些考研教材的数学部分进行讲解。
- 纯理论的部分,看着会很枯燥,不过学习就是这样,不管学不学,知识点永远在那里,卷就是要比其他人更能看得进去枯燥无味的东西
博主准备了一份自己踩坑经历过的资料,已经将其整理完毕,如果想更深入了解机器学习的学习路线,可以关注公众号【点头人工智能】回复暗号【我不是卦神】即可获得
一、函数
设变量x的取值范围为D,若对任意x(属于D范围内的),按照某种对应管子总有唯一确定的值y与x对应,就称y是x的函数,记为
y
=
f
(
x
)
y=f(x)
y=f(x)
函数的一些性质
- 有界性
设
y
=
f
(
x
)
(
x
∈
D
)
,
若存在
M
>
0
,
对任意的
x
∈
D
,
总有
∣
f
(
x
)
∣
≤
M
,
称函数
f
(
x
)
在
D
上有界
设y=f(x)(x\in D), 若存在M>0, 对任意的x\in D, 总有|f(x)|\le M, 称函数f(x)在D上有界
设y=f(x)(x∈D),若存在M>0,对任意的x∈D,总有∣f(x)∣≤M,称函数f(x)在D上有界
在某个区间上,函数值总小于某一个值,就是一个有界函数 - 单调性。对于某个区间内的任意两个值,若x的值的大小关系和对应函数值的大小关系一致,就是单调递增,反之单调递减 若对任意的 x 1 , x 2 ∈ D , 且 x 1 < x 2 , 总有 f ( x 1 ) < f ( x 2 ) , 则单调递增 若对任意的x_{1},x_{2}\in D, 且x_{1}<x_{2}, 总有f(x_{1})<f(x_{2}), 则单调递增 若对任意的x1,x2∈D,且x1<x2,总有f(x1)<f(x2),则单调递增 若对任意的 x 1 , x 2 ∈ D , 且 x 1 < x 2 , 总有 f ( x 1 ) > f ( x 2 ) , 则单调递减 若对任意的x_{1},x_{2}\in D, 且x_{1}<x_{2}, 总有f(x_{1})>f(x_{2}), 则单调递减 若对任意的x1,x2∈D,且x1<x2,总有f(x1)>f(x2),则单调递减
- 奇偶性。关于原点对称的函数为奇函数,关于y轴对称的为偶函数。 若 f ( − x ) = − f ( x ) , 为奇函数 若f(-x)=-f(x), 为奇函数 若f(−x)=−f(x),为奇函数 若 f ( − x ) = f ( x ) , 为偶函数 若f(-x)=f(x), 为偶函数 若f(−x)=f(x),为偶函数
二、极限
定义: 若对任意的 ϵ > 0 , 存在 N > 0 , 当 n > N 时 , 有 ∣ a n − A ∣ < ϵ , 称 A 为数列 a n 的极限 若对任意的\epsilon>0, 存在N>0, 当n>N时, 有|a_{n}-A|<\epsilon, 称A为数列{a_{n}}的极限 若对任意的ϵ>0,存在N>0,当n>N时,有∣an−A∣<ϵ,称A为数列an的极限 记为 lim n → a a n = A 记为\lim_{n\rightarrow a}a_{n}=A 记为n→aliman=A
极限的性质:
- 唯一性 若极限存在,则极限一定是唯一的 若极限存在,则极限一定是唯一的 若极限存在,则极限一定是唯一的
- 保号性 设 lim x → a f ( x ) = A > 0 ( 或 < 0 ) , 则存在 δ > 0 , 当 0 < ∣ x − a ∣ < δ 时,有 f ( x ) > 0 ( 或 f ( x ) < 0 ) 设\lim_{x\rightarrow a}f(x)=A>0(或<0), 则存在\delta >0, 当0<|x-a|<\delta时,有f(x)>0(或f(x)<0) 设x→alimf(x)=A>0(或<0),则存在δ>0,当0<∣x−a∣<δ时,有f(x)>0(或f(x)<0)
介绍极限的时候引入一个无穷的概念
无穷小,定义:
若
lim
x
→
a
(
x
)
=
0
,
称
a
(
x
)
在
x
→
a
的时候为无穷小
若\lim_{x\rightarrow a}(x)=0, 称a(x)在x\rightarrow a的时候为无穷小
若x→alim(x)=0,称a(x)在x→a的时候为无穷小
无穷小有高低阶之分:
若此时有两个无穷小,则
若
lim
β
α
=
0
,
称
β
为
α
的高阶无穷小
若\lim \frac{\beta}{\alpha}=0, 称\beta为\alpha的高阶无穷小
若limαβ=0,称β为α的高阶无穷小
若
lim
β
α
=
k
(
k
≠
0
,
∞
)
,
称
β
为
α
的同阶无穷小
若\lim \frac{\beta}{\alpha}=k(k\ne0, \infty), 称\beta为\alpha的同阶无穷小
若limαβ=k(k=0,∞),称β为α的同阶无穷小
特别地
,
若
lim
β
α
=
1
,
称
β
为
α
的等价无穷小
特别地, 若\lim \frac{\beta}{\alpha}=1, 称\beta为\alpha的等价无穷小
特别地,若limαβ=1,称β为α的等价无穷小
三、导数
导数的本质就是一个函数在某一个点的极限值,反映了该点的变化率
若对任意的
x
∈
D
,
lim
Δ
x
→
0
f
(
x
+
Δ
x
)
−
f
(
x
)
Δ
x
存在,称函数
y
=
f
(
x
)
在
D
内可导,极限记为
f
′
(
x
)
,
被称为导函数或导数
若对任意的x\in D, \lim_{\Delta x \rightarrow 0}\frac{f(x+\Delta x)-f(x)}{\Delta x}存在,称函数y=f(x)在D内可导,极限记为f^\prime(x), 被称为导函数或导数
若对任意的x∈D,Δx→0limΔxf(x+Δx)−f(x)存在,称函数y=f(x)在D内可导,极限记为f′(x),被称为导函数或导数
导数公式和求导法则:
本文对其不进行细致讨论,了解即可,关于导数运算法则如下:
四、偏导数
首先引入一个增量的概念
设函数
z
=
f
(
x
,
y
)
(
(
x
,
y
)
∈
D
)
,
(
x
0
,
y
0
)
∈
D
z=f(x,y)((x,y)\in D),(x_{0},y_{0})\in D
z=f(x,y)((x,y)∈D),(x0,y0)∈D称
Δ
z
x
=
f
(
x
0
+
Δ
x
,
y
0
)
−
f
(
x
0
,
y
0
)
(或
Δ
z
=
f
(
x
,
y
0
)
−
f
(
x
0
,
y
0
)
)
\Delta z_{x}=f(x_{0}+\Delta x,y_{0})-f(x_{0},y_{0})(或\Delta z=f(x,y_{0})-f(x_{0},y_{0}))
Δzx=f(x0+Δx,y0)−f(x0,y0)(或Δz=f(x,y0)−f(x0,y0))
为该函数在x处的偏增量
Δ
z
x
=
f
(
x
,
y
0
+
Δ
y
)
−
f
(
x
0
,
y
0
)
(或
Δ
z
=
f
(
x
0
,
y
)
−
f
(
x
0
,
y
0
)
)
\Delta z_{x}=f(x,y_{0}+\Delta y )-f(x_{0},y_{0})(或\Delta z=f(x_{0},y)-f(x_{0},y_{0}))
Δzx=f(x,y0+Δy)−f(x0,y0)(或Δz=f(x0,y)−f(x0,y0))
为该函数在y处的偏增量
Δ
z
x
=
f
(
x
0
+
Δ
x
,
y
0
+
Δ
y
)
−
f
(
x
0
,
y
0
)
(或
Δ
z
=
f
(
x
,
y
)
−
f
(
x
0
,
y
0
)
)
\Delta z_{x}=f(x_{0}+\Delta x,y_{0}+\Delta y )-f(x_{0},y_{0})(或\Delta z=f(x,y)-f(x_{0},y_{0}))
Δzx=f(x0+Δx,y0+Δy)−f(x0,y0)(或Δz=f(x,y)−f(x0,y0))
为该函数的全增量
以下是偏导数的定义
若
lim
Δ
x
→
0
f
(
x
0
+
Δ
x
,
y
0
)
−
f
(
x
0
,
y
0
)
Δ
x
\lim_{\Delta x \rightarrow 0} \frac{f(x_{0}+\Delta x,y_{0})-f(x_{0},y_{0})}{\Delta x}
Δx→0limΔxf(x0+Δx,y0)−f(x0,y0)存在,就是该函数在该点的偏导数(这里是x),记为
f
x
′
(
x
0
,
y
0
)
或
∂
z
∂
x
∣
x
0
,
y
0
f^\prime_x(x_{0},y_{0}) 或\frac{\partial z}{\partial x}\bigg|_{x_{0},y_{0}}
fx′(x0,y0)或∂x∂z
x0,y0
在y方向上也是同理,若
lim
Δ
y
→
0
f
(
x
0
,
y
0
+
Δ
y
)
−
f
(
x
0
,
y
0
)
Δ
y
\lim_{\Delta y \rightarrow 0} \frac{f(x_{0},y_{0}+\Delta y)-f(x_{0},y_{0})}{\Delta y}
Δy→0limΔyf(x0,y0+Δy)−f(x0,y0)存在,就是该函数在该点的偏导数,记为
f
y
′
(
x
0
,
y
0
)
或
∂
z
∂
y
∣
x
0
,
y
0
f^\prime_y(x_{0},y_{0}) 或\frac{\partial z}{\partial y}\bigg|_{x_{0},y_{0}}
fy′(x0,y0)或∂y∂z
x0,y0
五、 方向导数
这里只介绍二维空间的方向导数,重点是为了引入梯度的概念
设有一个二元函数,并且在xOy面内过一个点做一条射线
称极限
lim
ρ
→
0
f
(
x
0
+
Δ
x
,
y
0
+
Δ
y
)
−
f
(
x
0
,
y
0
)
ρ
为函数
z
=
f
(
x
,
y
)
的在点
M
0
处的方向导数
称极限\lim_{\rho \rightarrow 0}\frac{f(x_{0}+\Delta x, y_{0}+\Delta y)-f(x_{0},y_{0})}{\rho}为函数z=f(x,y)的在点M_{0}处的方向导数
称极限ρ→0limρf(x0+Δx,y0+Δy)−f(x0,y0)为函数z=f(x,y)的在点M0处的方向导数
其中,
ρ
=
(
Δ
x
)
2
+
(
Δ
y
)
2
\rho=\sqrt{(\Delta x)^2+(\Delta y)^2}
ρ=(Δx)2+(Δy)2
记作
∂
z
∂
l
∣
M
0
记作\frac{\partial z}{\partial l}\bigg|_{M_{0}}
记作∂l∂z
M0
如果存在方向角的话
∂
z
∂
l
∣
M
0
=
∂
z
∂
x
∣
M
0
c
o
s
α
+
∂
z
∂
y
∣
c
o
s
β
\frac{\partial z}{\partial l}\bigg|_{M_{0}}=\frac{\partial z}{\partial x}\bigg|_{M_{0}}cos \alpha +\frac{\partial z}{\partial y}\bigg|cos \beta
∂l∂z
M0=∂x∂z
M0cosα+∂y∂z
cosβ
六、梯度
设
u
=
f
(
x
,
y
,
z
)
可偏导,称
g
r
a
d
u
=
{
∂
u
∂
x
,
∂
u
∂
y
,
∂
u
∂
z
}
为函数的梯度
设u=f(x,y,z)可偏导,称grad\thinspace u =\left\{\frac{\partial u}{\partial x},\frac{\partial u}{\partial y},\frac{\partial u}{\partial z}\right\}为函数的梯度
设u=f(x,y,z)可偏导,称gradu={∂x∂u,∂y∂u,∂z∂u}为函数的梯度
梯度是一个方向量,这里补充一点关于梯度下降的内容。梯度表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向变化最快,变化率最大。
在机器学习中,通常函数为损失函数,既然是损失,我们模型期待的目标是最小值,因此需要取到梯度的反方向,即梯度下降(想象一下盲人下山的画面)。
防火防盗防诈骗