【机器学习入门系列】—— 数学基础（一）

最新推荐文章于 2024-09-06 15:34:58 发布

我不是卦神

最新推荐文章于 2024-09-06 15:34:58 发布

阅读量209

点赞数 1

分类专栏：机器学习入门系列文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_42141136/article/details/129496796

版权

机器学习入门系列专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

本人最近整理了一下研究生期间学习内容，为了帮助更多考上研的小伙伴，这里对所学内容进行了一些整理，希望本专栏能够帮助更多的研究牲们更好的打工

本期内容：高等数学基础部分

学前提示：

机器学习这边的数学部分，只需要了解，理解即可，计算部分都是交给代码去实现的。所以考研的小伙伴不要看这里的数学。不过为了理解更加透彻，本系列会引用一些考研教材的数学部分进行讲解。
纯理论的部分，看着会很枯燥，不过学习就是这样，不管学不学，知识点永远在那里，卷就是要比其他人更能看得进去枯燥无味的东西

博主准备了一份自己踩坑经历过的资料，已经将其整理完毕，如果想更深入了解机器学习的学习路线，可以关注公众号【点头人工智能】回复暗号【我不是卦神】即可获得
在这里插入图片描述

一、函数

设变量x的取值范围为D，若对任意x（属于D范围内的），按照某种对应管子总有唯一确定的值y与x对应，就称y是x的函数，记为
$y = f (x)$

函数的一些性质

有界性 $设y=f(x)(x\in D), 若存在M>0, 对任意的x\in D, 总有|f(x)|\le M, 称函数f(x)在D上有界$
在某个区间上，函数值总小于某一个值，就是一个有界函数
单调性。对于某个区间内的任意两个值，若x的值的大小关系和对应函数值的大小关系一致，就是单调递增，反之单调递减 $若对任意的x_{1},x_{2}\in D, 且x_{1}<x_{2}, 总有f(x_{1})<f(x_{2}), 则单调递增$ $若对任意的x_{1},x_{2}\in D, 且x_{1}<x_{2}, 总有f(x_{1})>f(x_{2}), 则单调递减$
奇偶性。关于原点对称的函数为奇函数，关于y轴对称的为偶函数。 $若 f (- x) = - f (x), 为奇函数$ $若 f (- x) = f (x), 为偶函数$

二、极限

定义： $若对任意的\epsilon>0, 存在N>0, 当n>N时, 有|a_{n}-A|<\epsilon, 称A为数列{a_{n}}的极限$ $记为\lim_{n\rightarrow a}a_{n}=A$

极限的性质：

唯一性 $若极限存在，则极限一定是唯一的$
保号性 $设\lim_{x\rightarrow a}f(x)=A>0(或<0), 则存在\delta >0, 当0<|x-a|<\delta时，有f(x)>0(或f(x)<0)$

介绍极限的时候引入一个无穷的概念
无穷小，定义：
$若\lim_{x\rightarrow a}(x)=0, 称a(x)在x\rightarrow a的时候为无穷小$
无穷小有高低阶之分：
若此时有两个无穷小，则
$若\lim \frac{\beta}{\alpha}=0, 称\beta为\alpha的高阶无穷小$
$若\lim \frac{\beta}{\alpha}=k(k\ne0, \infty), 称\beta为\alpha的同阶无穷小$
$若\lim \frac{\beta}{\alpha}=1, 称\beta为\alpha的等价无穷小$

三、导数

导数的本质就是一个函数在某一个点的极限值，反映了该点的变化率
$若对任意的x\in D, \lim_{\Delta x \rightarrow 0}\frac{f(x+\Delta x)-f(x)}{\Delta x}存在，称函数y=f(x)在D内可导，极限记为f^\prime(x), 被称为导函数或导数$

导数公式和求导法则：
在这里插入图片描述
本文对其不进行细致讨论，了解即可，关于导数运算法则如下：

四、偏导数

首先引入一个增量的概念
设函数 $z=f(x,y)((x,y)\in D),(x_{0},y_{0})\in D$ 称 $\Delta z_{x}=f(x_{0}+\Delta x,y_{0})-f(x_{0},y_{0})（或\Delta z=f(x,y_{0})-f(x_{0},y_{0})）$
为该函数在x处的偏增量

$\Delta z_{x}=f(x,y_{0}+\Delta y )-f(x_{0},y_{0})（或\Delta z=f(x_{0},y)-f(x_{0},y_{0})）$
为该函数在y处的偏增量

$\Delta z_{x}=f(x_{0}+\Delta x,y_{0}+\Delta y )-f(x_{0},y_{0})（或\Delta z=f(x,y)-f(x_{0},y_{0})）$
为该函数的全增量

以下是偏导数的定义

若 $\lim_{\Delta x \rightarrow 0} \frac{f(x_{0}+\Delta x,y_{0})-f(x_{0},y_{0})}{\Delta x}$ 存在，就是该函数在该点的偏导数（这里是x），记为
$f^\prime_x(x_{0},y_{0}) 或\frac{\partial z}{\partial x}\bigg|_{x_{0},y_{0}}$

在y方向上也是同理，若 $\lim_{\Delta y \rightarrow 0} \frac{f(x_{0},y_{0}+\Delta y)-f(x_{0},y_{0})}{\Delta y}$ 存在，就是该函数在该点的偏导数，记为
$f^\prime_y(x_{0},y_{0}) 或\frac{\partial z}{\partial y}\bigg|_{x_{0},y_{0}}$

五、方向导数

这里只介绍二维空间的方向导数，重点是为了引入梯度的概念

设有一个二元函数，并且在xOy面内过一个点做一条射线
$称极限\lim_{\rho \rightarrow 0}\frac{f(x_{0}+\Delta x, y_{0}+\Delta y)-f(x_{0},y_{0})}{\rho}为函数z=f(x,y)的在点M_{0}处的方向导数$
其中，
$\rho=\sqrt{(\Delta x)^2+(\Delta y)^2}$
$记作\frac{\partial z}{\partial l}\bigg|_{M_{0}}$
如果存在方向角的话
$\frac{\partial z}{\partial l}\bigg|_{M_{0}}=\frac{\partial z}{\partial x}\bigg|_{M_{0}}cos \alpha +\frac{\partial z}{\partial y}\bigg|cos \beta$

六、梯度

$设u=f(x,y,z)可偏导，称grad\thinspace u =\left\{\frac{\partial u}{\partial x},\frac{\partial u}{\partial y},\frac{\partial u}{\partial z}\right\}为函数的梯度$
梯度是一个方向量，这里补充一点关于梯度下降的内容。梯度表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向变化最快，变化率最大。
在机器学习中，通常函数为损失函数，既然是损失，我们模型期待的目标是最小值，因此需要取到梯度的反方向，即梯度下降（想象一下盲人下山的画面）。