ML笔记——梯度下降

最新推荐文章于 2023-08-20 22:03:38 发布

HerdingCat

最新推荐文章于 2023-08-20 22:03:38 发布

阅读量237

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/Fancy_Real/article/details/80110174

版权

Machine Learning 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

- 数学表达
- 胡思乱想时刻

数学表达

求解代价函数 $J(\theta_0,\theta_1)$ 中的 $\theta_0,\theta_1$ 使得 $J(\theta_0,\theta_1)$ 最小。

$\theta_0=0, \theta_1=0$
重复同时更新 $\theta_j := \theta_j-\alpha \frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1) \quad (j=0, 1)$ ，直到 $\theta_j$ 不再改变

其中的 $\theta_0,\theta_1$ 表示假设的线性函数中的两个参数， $\alpha$ 表示学习速率

胡思乱想时刻

计算机如何表示这个求偏导数的过程呢？

结合假设函数 $h_\theta(x)$ 与代价函数 $J(\theta_0,\theta_1)$ 有
$\theta_0 = \theta_0-\alpha \frac{\partial}{\partial \theta_0}J(\theta_0,\theta_1) \\ =\theta_0 - \alpha \frac{\partial}{\partial \theta_0}(\frac{1}{2m} \sum_{i=1}^m(h_\theta(x_i)-y_i)^2) \\ =\theta_0 - \frac{\alpha}{m} \sum_{i=1}^m((h_\theta(x_i)-y_i) \frac{\partial}{\partial \theta_0}h_\theta(x_i)) \\=\theta_0 - \frac{\alpha}{m} \sum_{i=1}^m((h_\theta(x_i)-y_i) \frac{\partial}{\partial \theta_0}(\theta_0+\theta_1x_i)) \\ =\theta_0 - \frac{\alpha}{m} \sum_{i=1}^m(h_\theta(x_i)-y_i)$
同理得到 $\theta_1$
$\theta_1 =\theta_1 - \frac{\alpha}{m} \sum_{i=1}^mx_i (h_\theta(x_i)-y_i)$
推广开去：
$\theta_i =\theta_i - \frac{\alpha}{m} \sum_{k=0}^{m-1}x_i^k (h_\theta(x^k)-y^k)$ （其中的 $k$ 表示第几组训练数据，与上面式子中的 $i$ 等价，而此式子中的 $i$ 表示第几项）
将 $h_\theta(x)=\theta_0x_0+\theta_1x_1+...+\theta_nx_n = \sum_{j=0}^{n-1}\theta_jx_j$ 代入上式得
$\theta_i =\theta_i - (\frac{\alpha}{m} \sum_{j=0}^{n-1}\sum_{k=0}^{m-1}\theta_jx_j^k x_i^k - \frac{\alpha}{m}\sum_{k=0}^{m-1}y^k x_i^k)$

//Batch Gradient Descent
const int N = 30, M = 100000;
typedef struct Data {
    double x[N + 1], y;
} TrainingData;

TrainingData TD[M];

void partial (double alpha, double *p, double *theta, int n, TrainingData *TD, int m) {
//此处偏导数的求解，依据上面最后一个式子
    for (int i = 0; i < n; ++i) {
        for (int j = 0; j < n; ++j)
            for (int k = 0; k < m; ++k)
                p[i] += alpha * theta[j] * TD[k].x[j] * TD[k].x[i] / m;

        for (int k = 0; k < m; ++k)
            p[i] -= alpha * TD[k].y * TD[k].x[i] / m;
    }
}

void GDA(double *theta, int n, TrainingData *TD, int m) {
    double alpha = 1, p[n];
    //此处的alpha没有动态处理，p数组用于记录偏导数
    for (int i= 0; i < m; ++i) //初始化
        TD[i].x[0] = 1;

    for (int i = 0; i < n; ++i) //初始化
        p[i] = 0, theta[i] = 0;

    do {
        bool isLoop = false; //控制循环是否终止

        partial(alpha, p, theta, n, TD, m); //求偏导数

        for (int i = 0; i < n; ++i) {
            if (p[i] != 0) { //判断偏导数是否为零
                theta[i] -= p[i];
                isLoop = true;
            }
        }

    }while(isLoop);
}

关于 $\theta_j = \theta_j-\alpha \frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$ 是如何能够在 $\alpha$ 取值合理的情况下，保证趋于最小值呢？

导数能够表示一个函数的在该点处的切线斜率。
当导数值越小时，切线斜率的绝对值也就越小。
当导数值等于0时，切线斜率就为0，此时取得最优。
同时还有考虑到，导数的正负表示在最优点的右侧和左侧（因为代价函数是只有最小值，不存在最大值）。
那么导数的正负就可以，引导 $\theta_j$ 的取值是增大还是减少，最终达到导数为零的情况。
学习速率 $\alpha$ 如何取值？

如果 $\alpha$ 取的值很大，那么可能无法收敛于最小值；如果 $\alpha$ 取的很小，则将增大运算次数。
由此得出， $\alpha$ 的取值一定不是一个定值。
再次考虑，导数与斜率的关系，当接近最优点时，斜率就会变小，此时学习速率就需要减少。