![](https://img-blog.csdnimg.cn/20201124161103129.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
数学基础
机器学习需要的数学基础知识
cute_Lily
这个作者很懒,什么都没留下…
展开
-
伯努利分布、二项分布和多项分布
1 伯努利分布 (Bernouli Distribution)伯努利分布(Bernoulli distribution)又名 两点分布 或 0-1分布,在讲伯努利分布前首先需要介绍伯努利试验(Bernoulli Trial)。1.1 伯努利试验伯努利试验是只有两种可能结果的单词随机试验,即对于一个随机变量 XXX:P[X=1]=pP[X=0]=1−p\begin{aligned}P[X=1]&=p\\P[X=0]&=1-p\end{aligned}P[X=1]P[X=0]原创 2020-09-28 09:48:15 · 7104 阅读 · 0 评论 -
梯度下降算法(Gradient Descent Optimization)、随机梯度下降SGD与小批量梯度下降MBGD
梯度下降算法(Gradient Descent Optimization)是求解损失函数最小值最常用的方法之一,根据计算目标函数采用数据量的不同,梯度下降算法又可以分为批量梯度下降算法(Batch Gradient Descent),随机梯度下降算法(Stochastic Gradient Descent)和小批量梯度下降算法(Mini-batch Gradient Descent)。1 梯度下降法1.1 梯度下降法原理梯度下降法(Gradient Descent)是一种常用的一阶(First Ord原创 2020-09-30 19:48:12 · 534 阅读 · 0 评论 -
牛顿法(Newton Methods)、阻尼牛顿法和拟牛顿法
令 X=(x1,x2,⋯ ,xN)T∈RNX=(x_1,x_2,\cdots,x_N)^T \in {\bf R}^NX=(x1,x2,⋯,xN)T∈RN,目标函数 f:RN→Rf:{\bf R}^N \rightarrow {\bf R}f:RN→R, fff 为凸函数,且二阶连续可微,我们希望求解如下的无约束极小化问题:minXf(X)\min_X f(X)Xminf(X)1 牛顿法为了简单起见,这里先考虑 N=1N=1N=1 的情形,此时目标函数 f(X)f(X)f(X) 变为 f(x原创 2020-10-10 10:36:49 · 8369 阅读 · 0 评论 -
梯度下降法与牛顿法的比较
两种方法的详细讲解可以参考:梯度下降算法(Gradient Descent Optimization)牛顿法(Newton Methods)、阻尼牛顿法和拟牛顿法相同点二者都是求解无约束最优化问题的常用方法不同点(1)原理方面梯度下降法的搜索方向是沿着等高线的法向量方向进行搜索,每次迭代优化方向为梯度方向,即当前点所在等高线的法向。但往往等高线很少是正圆形,这种情况下搜索次数会过多。牛顿法搜索方向为椭圆中心方向,这个方向也叫做牛顿方向,牛顿法的更新方程 Hk−1∇f(Xk)H_k^{-1}原创 2020-10-10 11:08:06 · 1640 阅读 · 0 评论