笔记：ML-LHY-1 Regression

最新推荐文章于 2021-02-25 22:34:25 发布

snoopy_21

最新推荐文章于 2021-02-25 22:34:25 发布

阅读量300

点赞数 1

分类专栏：机器学习笔记李宏毅ML课程笔记

本文链接：https://blog.csdn.net/qq_29598161/article/details/107307708

版权

笔记同时被 3 个专栏收录

68 篇文章 7 订阅

订阅专栏

机器学习

32 篇文章 0 订阅

订阅专栏

李宏毅ML课程笔记

31 篇文章 4 订阅

订阅专栏

机器学习最简单的入门算法就是线性回归了，从这里出发开始学习机器学习
本节课主要介绍使用梯度下降方法求解线性回归
机器学习解决方法建模常规分为3个步骤：
1.确定目标函数，其中带有未知参数 $\theta$
2.如何表达参数 $\theta$ 对模型影像，即损失函数的确定，在参数 $\theta$ 确定的目标函数下与真实值的差异
3.找到最符合数据的目标函数的参数 $\theta$ ，例如使用：梯度下降
梯度下降概念和原理，正则化防止过拟合
pdf 视频

Regression

Step 1: Model

确定目标函数，其中带有未知参数 $\theta$ ，注意 $w$ 其实就是参数 $\theta$ 的意思，下同。

在这里插入图片描述
怎么确定目标函数，这个需要靠经验和数学建模能力，比如上面我们期望输入时一只宝可梦的各个特征，然后通过我们设置的(函数)模型会有输出生命(CP)值。
正常的想法是对各个特征 $x_i$ 进行加权 $w_{i}$ 然后再进行偏置 $b$ ，而不会是说各个特征 $x_i$ 进行累乘。

既然是线性回归，标准的线性回归模型就是：
$y=b+\sum w_{i} x_{i}$

Step 2: Goodness of Function

如何表达参数 $\theta$ 对模型影像，即损失函数的确定，在参数 $\theta$ 确定的目标函数下与真实值的差异

在这里插入图片描述

损失函数就是在给定参数 $\theta$ 确定的目标函数下与真实值的差异。

比如常见的MSE(Mean Square Error)均方误差 :

$\mathrm{L}(w, b)=\sum_{n=1}^{N}\left(\hat{y}_{n}-\left(b+w \cdot x_{n}\right)\right)^{2}$
更一般的有( $W=(w_1,w_2,...,w_i)$ )：
$\mathrm{L}(W, b)=\sum_{n=1}^{N}\left(\hat{y}_{n}-\left(b+\sum_{i=1}^{K} w_i \cdot x_{n}\right)\right)^{2}$
N为训练数据量，K为优化类别数目
而对于多次则有(类别设为1种)：
$\mathrm{L}(W, b)=\sum_{n=1}^{N}\left(\hat{y}_{n}-\left(b+\sum_{i=1}^{K}\sum_{j=1}^{M} w_{ij} \cdot x_{n}^{j}\right)\right)^{2}$
M为模型次数，次数过高会导致对权重更敏感，所以添加正则化项：
$\mathrm{L}(W, b)=\sum_{n=1}^{N}\left(\hat{y}_{n}-\left(b+\sum_{i=1}^{K}\sum_{j=1}^{M} w_{ij} \cdot x_{n}^{j}\right)\right)^{2} +\lambda \sum_{i=1}^{K}\sum_{j=1}^{M} \left(w_{ij}\right)^{2}$
需要注意的是正则化项不需要添加偏置项，其目的只为了是函数更平滑，偏置项bias只会上下移动

Step 3: Best Function

找到最符合数据的目标函数的参数 $\theta$ ，例如使用：梯度下降

在这里插入图片描述
梯度下降就好比一个人在下山(由多个参数 $w$ 确定的损失山)，在 $w_0$ 这个位置，他会先看一下周围情况(求导： $\left.\frac{d L}{d w}\right|_{w=w^{0}}$ )。

如果导数是正的，说明现在是在上坡的位置上，我们应该往反方向走
所以应该减小参数 $w$ ( $w^{1} \leftarrow w^{0}-\left.\eta \frac{d L}{d w}\right|_{w=w^{0}}$ )

如果导数是负的，说明现在是在下坡的位置上，我们应该往前方向走
所以应该增加参数 $w$ ( $w^{1} \leftarrow w^{0}+|\left.\eta \frac{d L}{d w}\right|_{w=w^{0}}| = w^{0}-\left.\eta \frac{d L}{d w}\right|_{w=w^{0}}(\left.\frac{d L}{d w}\right|_{w=w^{0}}< 0)$ )

因此就有：

按最简单形式，即一元(不包括偏置项)一次函数：
$\mathrm{L}(w, b)=\sum_{n=1}^{N}\left(\hat{y}_{n}-\left(b+w \cdot x_{n}\right)\right)^{2}$

$\frac{\partial L}{\partial w}= \sum_{n=1}^{10} 2\left(\hat{y}_{n}-\left(b+w \cdot x_{n}\right)\right)\left(-x_{n}\right)$

$\frac{\partial L}{\partial b}= \sum_{n=1}^{10} 2\left(\hat{y}_{n}-\left(b+w \cdot x_{n}\right)\right)$

$\text { Compute }\left.\left.\frac{\partial L}{\partial w}\right|_{w=w^{0}, b=b^{0},} \frac{\partial L}{\partial b}\right|_{w=w^{0}, b=b^{0}} \\ w^{1} \leftarrow w^{0}-\left.\eta \frac{\partial L}{\partial w}\right|_{w=w^{0}, b=b^{0}} \quad b^{1} \leftarrow b^{0}-\left.\eta \frac{\partial L}{\partial b}\right|_{w=w^{0}, b=b^{0}}$

$\begin{aligned} &\text { Compute }\left.\left.\frac{\partial L}{\partial w}\right|_{w=w^{1}, b=b^{1},} \frac{\partial L}{\partial b}\right|_{w=w^{1}, b=b^{1}}\\ &w^{2} \leftarrow w^{1}-\left.\eta \frac{\partial L}{\partial w}\right|_{w=w^{1}, b=b^{1}} \quad b^{2} \leftarrow b^{1}-\left.\eta \frac{\partial L}{\partial b}\right|_{w=w^{1}, b=b^{1}} \end{aligned}$

对应上面，更一般的形式：
$\nabla L(W) = [\frac{\partial L}{\partial w_0}, \frac{\partial L}{\partial w_1},...,\frac{\partial L}{\partial w_{i}}]^T$
$W^{k}=W^{k-1}+\alpha \nabla L\left(W^{k-1}\right)$

多次线性回归

1次项

在这里插入图片描述

2次项

在这里插入图片描述

3次项

在这里插入图片描述

4次项

在这里插入图片描述

总之增加目标函数的幂次会使模型变复杂，使得模型能够更好拟合训练数据，但是太复杂的模型导致产生偏置(即偏训练集)，会在测试数据上变差。这也是常说的过拟合(Overfitting)。
在这里插入图片描述

通过正则(Regularization)可以一定程度上消除过拟合
在这里插入图片描述

以上参考李宏毅老师视频和ppt，仅作为学习笔记交流使用

实验代码

import numpy as np
import matplotlib.pyplot as plt

if $y = 2 + 0.5 x$

def load_dataset(n):
    k = 0.5
    b = 20
    noise = np.random.rand(n)
    X = [x for x in range(n)]
    y = [(k * X[i]  + b + noise[i]) for i in range(n)]
    return np.array(X).T, np.array(y).T

x, y = load_dataset(20)
plt.ylim(0, 50)
plt.xlim(0, 20)
plt.scatter(x, y)

在这里插入图片描述

假设损失函数

$\frac{1}{2m}\sum_{i=1}^m(w_1 + w_2 x_i - y_i)^2$

先对 $w_1$ 求偏导

$w_1 = w_1 - \alpha \frac{1}{m} \sum_{i=1}^m(w_1 + w_2 x_i - y_i)$

对 $w_2$ 求偏导

$w_2 = w_2 - \alpha \frac{1}{m} \sum_{i=1}^m(w_1 + w_2 x_i - y_i)x_i$

程序计算时，求每次的

$\frac{1}{m} \sum_{i=1}^m(w_1 + w_2 x_i - y_i)$

def calc_loss(x,y,w1,w2):
    J = 0
    for i in range(len(x)):
        mse = (w1 + x[i]*w2 -y[i])**2
        J += mse
    return J / (2*len(x))

loss = 10000000000
min_loss = 0.0001
w1 = 0;
w2 = 0;
m = len(x)
alpha = 0.1 # 学习率
max_itc = 100000
itc = 0
loss = calc_loss(x, y , w1, w2)
loss_pre = loss  + min_loss+ 1
loss_array = [loss]
while abs(loss - loss_pre) > min_loss and itc < max_itc:
    # g1
    g1 = 0
    for i in range(m):
        g1 = g1 + w1 + w2 * x[i]  - y[i]
    g1 = g1 / m
    w1_ = w1 - alpha * g1
#     print(w1_)
    
     # g2
    g2 = 0
    for i in range(m):
        g2 = g2 = (w1  + w2 * x[i]  - y[i]) * x[i]
    g2 = g2 / m
    w2_ = w2 - alpha * g2
    
    w1 = w1_
    w2 = w2_
    
    #loss
    loss_pre = loss
    loss = calc_loss(x, y , w1, w2)
    loss_array.append(loss)
#     print(loss)
    itc += 1

# loss_array

plt.plot(range(len(loss_array)), loss_array)

w1, w2

在这里插入图片描述
(20.683619269764357, 0.4669721730697502)

snoopy_21

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录