AlgoC++第一课：求解根号2_c++机器学习求根号-CSDN博客

本博客上原创文章未经本人许可，不得用于商业用途。转载请注明出处，否则保留追究法律责任的权利

本文链接：https://blog.csdn.net/qq_40672115/article/details/128288817

前言

手写AI推出的全新面向AI算法的C++课程 Algo C++，链接。记录下个人学习笔记，仅供自己参考。
本次课程主要讲解求解根号2
课程大纲可看下面的思维导图

在这里插入图片描述

1.问题描述

使用梯度下降法和牛顿法实现求解根号x
$\sqrt{x}=?$

2.梯度下降法

问题思考方式：

第一步：转化问题，将 $\scriptsize \sqrt{x}$ 转化为 $\scriptsize L(t)=(t^2-x)^2$ ，当 $\scriptsize L(t)=0$ 时， $\scriptsize t$ 就是计算得出的结果

第二步：寻找合适的解，找 $\scriptsize t$ 使得 $\scriptsize L(t)=(t^2-x)^2 = 0$

第三步：找到的 $\scriptsize t$ ，就是得出的结果

转化问题的目的是，求解 $\scriptsize L(t)$ 的极小值，也就是导数为0的点

补充知识点

$\scriptsize L(t)$ 为偶函数，关于y轴对称，只需要考虑 $\scriptsize [0,+∞)$
在 $\scriptsize [0,+∞)$ 上 $\scriptsize L(t)$ 为凹函数，参考自什么是凹函数和凸函数?
如果凹函数在区间上的局部极小值存在则一定是该区间最小值。参考自函数凹凸性和极值
$\scriptsize L(t)=0$ 时取最小值同时也是极小值

如何找 $\scriptsize t$ ，使得 $\scriptsize L(t)=0$ ，注意 $\scriptsize L(t)$ 取0是 $\scriptsize L$ 函数的极小值

核心思想:

第一步：随机给定一个初始值 $\scriptsize t_0$

第二步：在这个位置观察， $\scriptsize t$ 应该如何调整能够使得函数值变小，即 $\scriptsize L(t_1)<L(t_0)$

第三步：不停根据第二步做调整，直到 $\scriptsize L(t_n)$ 足够接近0为止(或调整量足够小)

在这里插入图片描述

如何调整使函数值变小

具体如何调整呢？在t的领域内对比 $\scriptsize L(t-\Delta t)$ 与 $\scriptsize L(t+\Delta t)$

若 $\scriptsize L(t-\Delta t)<L(t)$ ，则 $\scriptsize t1=t-\Delta t$

若 $\scriptsize L(t+\Delta t)<L(t)$ ，则 $\scriptsize t1=t+\Delta t$

由于考虑的是 $\scriptsize t$ 的领域内，因此 $\scriptsize \Delta t$ 是大于0的无穷小数

可以改写为

若 $\scriptsize L(t)-L(t-\Delta t)>0$ ，则 $\scriptsize t_1=t-\Delta t$

若 $\scriptsize L(t+\Delta t)-L(t)<0$ ，则 $\scriptsize t_1=t+\Delta t$

合成后如下：
$t_{1}=t-\frac{L(t+\Delta t)-L(t)}{|L(t+\Delta t)-L(t)|} \Delta t$
在这里插入图片描述

t领域内

对式子进行变换
$t_{1}=t-\frac{L(t+\Delta t)-L(t)}{|L(t+\Delta t)-L(t)|} \Delta t \tag1$

$t_{1}=t-\frac{\frac{L((t+\Delta t)-L(t)}{\Delta t}}{\left|\frac{L(t+\Delta t)-L(t)}{\Delta t}\right|} \Delta t=t-\frac{L(t+\Delta t)-L(t)}{\Delta t} \frac{\Delta t}{\left|\frac{L(t+\Delta t)-L(t)}{\Delta t}\right|} \tag2$

$t_{1}=t-\alpha \frac{L(t+\Delta t)-L(t)}{\Delta t} \quad\left(\alpha \rightarrow 0^{+}\right) \tag3$
得出迭代式， $\scriptsize t_1$ 只需要取 $\scriptsize t-\alpha L^{\prime}(t)$ ，就能够保证 $\scriptsize L(t_1) \leq L(t_0)$ ，并使得 $\scriptsize L$ 逐渐下降，直到逼近0为止，注意这里的 $\scriptsize \alpha$ 必须取趋近于0的无穷小时，该行为才能恒成立， $\scriptsize \alpha$ 也被视作步长

然而真实世界是

$t_{1}=t-\alpha \frac{L(t+\Delta t)-L(t)}{\Delta t} \quad\left(\alpha \rightarrow 0^{+}\right)$

1.当 $\scriptsize \alpha$ 取无穷小时，虽然一定保证下降，但效率太慢
2.日常设计的很多函数，可以运行使用相对大一些的步长，比如 $\scriptsize \alpha=0.01$ 。原因在于虽然步长大了可能跳过合适位置，使得 $\scriptsize L(t_1)>L(t_0)$ ，但是在下一个时刻，依旧可能跳回来使得 $\scriptsize L(t_2)<L(t_1)$
3.大的步长不能保证一定收敛，但是大部分时候是可以很好的工作
4.因此步长 $\scriptsize \alpha$ ，我们常称之为学习率，通常会给一个相对小的数字，但不会太小

代码如下

float x = 2;
float t = x / 2;
float L = (t * t - x) * (t * t - x);
float a = 0.01;

while(L > 1e-5){
    
    float delta = 2 * (t * t - x) * 2 * t;
    t = t - a * delta;
    L = (t * t - x) * (t * t - x);
}
cout << "result: " << t << endl;

第一步：初始化 $t=\frac{x}{2}$ ， $\scriptsize t$ 也可以初始化为随机值，不过加入先验给一个更好的初始化，使得求解更迅速

第二步：计算 $\scriptsize L(t)=(t^2-x)^2$

第三步：若 $\scriptsize L(t)>1e-5$ ，则继续迭代，否则停止迭代(注：delta足够小时也可以停止迭代)

第四步：计算导数 $\scriptsize \frac{d L(t)}{d t}=2\left(t^{2}-x\right) \cdot 2 t$

第五步：更新 $\scriptsize t^{+}=t-\alpha \cdot \frac{d L(t)}{d t}$ ，这里 $\scriptsize \alpha$ 取0.01

第六步：继续执行第二步

从泰勒展开来理解梯度下降法

对于 $\scriptsize f(x)$ 的一阶泰勒展开，表示为：
$f(x)=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)$
对应的 $\scriptsize L$ 在 $\scriptsize t_0$ 处的一阶泰勒展开近似表示为( $\scriptsize t_1$ 与 $\scriptsize t_0$ 都是领域)：
$L\left(t_{1}\right)=L\left(t_{0}\right)+L^{\prime}\left(t_{0}\right)\left(t_{1}-t_{0}\right)$
为了使得 $\scriptsize L(t_1)<L(t_0)$
$L\left(t_{0}\right)+L^{\prime}\left(t_{0}\right)\left(t_{1}-t_{0}\right)<L\left(t_{0}\right) \\ L^{\prime}\left(t_{0}\right)\left(t_{1}-t_{0}\right)<0$

由于 $\scriptsize t_0$ 与 $\scriptsize t_1$ 是领域，则 $\scriptsize \left|t_{1}-t_{0}\right|=\Delta t$ ，又 $\scriptsize L^{\prime}\left(t_{0}\right)\left(t_{1}-t_{0}\right)<0$ ，则必有 $\scriptsize L^{\prime}\left(t_{0}\right)$ 与 $\scriptsize t_1-t_0$ 符号相反

令
$t_{1}-t_{0}=-\frac{L^{\prime}\left(t_{0}\right)}{\left|L^{\prime}\left(t_{0}\right)\right|} \Delta t$
则有
$t_{1}=t_{0}-\frac{L^{\prime}\left(t_{0}\right)}{\left|L^{\prime}\left(t_{0}\right)\right|} \Delta t \\ t_{1}=t_{0}-\alpha L^{\prime}\left(t_{0}\right) \quad\left(\alpha \rightarrow 0^{+}\right)$
总结：

1.梯度下降法是通过观察局部，决定如何调整的算法。如果函数具有多个极值，则可能陷入局部极值，此时初始点的选择直接影响收敛结果
2.大的步长在一定程度上可能跨过局部极值，但也可能造成震荡导致不收敛
3.步长的选择，需要根据函数的特性来找到合适取值，若导数特别大时，则步长取小，导数小时，步长取大。否则很容易造成收敛问题
4.存在一类算法，可以在一定范围内搜索一个合适步长，使得每一次迭代更加稳定

3.牛顿法

问题思考方式：

第一步：转化问题，将 $\scriptsize \sqrt{x}$ 转化为 $\scriptsize L(t)=(t^2-x)$ ，当 $\scriptsize L(t)=0$ 时， $\scriptsize t$ 就是计算得出的结果

第二步：寻找合适的解，找 $\scriptsize t$ 使得 $\scriptsize L(t)=(t^2-x) = 0$

第三步：找到的 $\scriptsize t$ ，就是得出的结果

具体实现：

考虑 $\scriptsize L(t)$ 在 $\scriptsize t_0$ 处的切线与x轴交点作为 $\scriptsize t_1$ ，不断逼近零点
如下图所示，考虑以 $\scriptsize o2(t_0,L(t_0))$ 为原点，则切线可表示为 $\scriptsize k=L^{\prime}\left(t_{0}\right),b=0$ ，而与x轴交点可表示为：

$k=\frac{d\left(o 2, t_{0}\right)}{d\left(t_{1}, t_{0}\right)}=\frac{L\left(t_{0}\right)}{t_{0}-t_{1}}=L^{\prime}\left(t_{0}\right)$

$t_{0}-t_{1}=\frac{L\left(t_{0}\right)}{L^{\prime}\left(t_{0}\right)} \\ t_{1}=t_{0}-\frac{L\left(t_{0}\right)}{L^{\prime}\left(t_{0}\right)}$

在这里插入图片描述

代码如下

float x = 2;
float t = x/2;
float L = t * t - x;

while(abs(L) > 1e-5){
    
    float dL = 2 * t;
    t = t - L / dL;
    L = t * t - x;
}
cout << "simple_nt1: " << t << endl;

第一步：随机给定一个初始值 $t=\frac{x}{2}$

第二步：计算 $\scriptsize L(t)$ 和 $\scriptsize L^{\prime}(t)$

第三步：更新 $\scriptsize t^{+}=t-\frac{L(t)}{L^{\prime}(t)}$

第四步：不停根据规则2做调整，直到 $\scriptsize L(t)$ 足够接近0为止(或调整量足够小)

从泰勒展开来理解牛顿法

对于 $\scriptsize f(x)$ 的一阶泰勒展开，表示为：
$f(x)=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)$
对应的 $\scriptsize L$ 在 $\scriptsize t_0$ 处的一阶泰勒展开近似表示为( $\scriptsize t_1$ 与 $\scriptsize t_0$ 都是领域)：
$L\left(t_{1}\right)=L\left(t_{0}\right)+L^{\prime}\left(t_{0}\right)\left(t_{1}-t_{0}\right)$
令 $\scriptsize L(t_1)=0$
$L\left(t_{0}\right)+L^{\prime}\left(t_{0}\right)\left(t_{1}-t_{0}\right)=0 \\ t_{1}-t_{0}=-\frac{L\left(t_{0}\right)}{L^{\prime}\left(t_{0}\right)} \\ t_{1}=t_{0}-\frac{L\left(t_{0}\right)}{L^{\prime}\left(t_{0}\right)}$
若函数二阶可导，则可考虑导函数零点时方程的根

根据 $\small t^{+}=t-\frac{L(t)}{L^{\prime}(t)}$ ，可令 $\small L=f^{\prime}(t)$ ，得出 $\small t^{+}=t-\frac{f^{\prime}(t)}{f^{\prime\prime}(t)}$ 。则函数为 $\small L(t)=(t^2-x)^2$ 时

代码如下

float x = 2;
float t = x / 2;
float L = (t * t - x) * (t * t - x);

while(L > 1e-5){
    
    float d1L = 2 * (t * t - x) * 2 * t;
    float d2L = 4 * t * 2 * t + 4 * (t * t - x);
    t = t - d1L / d2L;
    L = (t * t - x) * (t * t - x);
}
cout << "simple_nt2: " << t << endl;