梯度下降法是一个一阶最优化算法,通常也称为最速下降法。我之前也没有关注过这类算法。最近,听斯坦福大学的机器学习课程时,碰到了用梯度下降算法求解线性回归问题,于是看了看这类算法的思想。今天只写了一些入门级的知识。
我们知道,函数的曲线如下:
编程实现:c++ code
- /*
- * @author:郑海波
- * blog.csdn.net/nuptboyzhb/
- * 2012-12-11
- */
- #include <iostream>
- #include <math.h>
- using namespace std;
- int main()
- {
- double e=0.00001;//定义迭代精度
- double alpha=0.5;//定义迭代步长
- double x=0;//初始化x
- double y0=x*x-3*x+2;//与初始化x对应的y值
- double y1=0;//定义变量,用于保存当前值
- while (true)
- {
- x=x-alpha*(2.0*x-3.0);
- y1=x*x-3*x+2;
- if (abs(y1-y0)<e)//如果2次迭代的结果变化很小,结束迭代
- {
- break;
- }
- y0=y1;//更新迭代的结果
- }
- cout<<"Min(f(x))="<<y0<<endl;
- cout<<"minx="<<x<<endl;
- return 0;
- }
- //运行结果
- //Min(f(x))=-0.25
- //minx=1.5
- //Press any key to continue
问题:
迭代步长alpha为什么要选择0.5??选择其他的值可以吗?它的取值与迭代的次数、收敛性及结果的准确性有何关系?如果选择alpha的值?
alpha看成是步长,X每次变化的程度。
alpha越大,X每次变化比较大,最后结果越不精确。
值越大,迭代次数越少,结果不一定准确。
值越小,迭代次数越多,结果准确,但效率会降低。
PS:这里的alpha选择0.5比较特殊,对于发现问题没什么帮助。
你可以吧alpha换成1/3试试(自己写个程序跑一下或者用上面的程序),输出每一步的结果会发现,每次X都会进一步地接近最小值。