Datawhale第7期-《李宏毅机器学习》作业（一）

最新推荐文章于 2024-02-25 17:11:51 发布

噜噜的小苹果

最新推荐文章于 2024-02-25 17:11:51 发布

阅读量479

点赞数

分类专栏：机器学习理论文章标签：机器学习

本文链接：https://blog.csdn.net/qq_39446239/article/details/90141755

版权

机器学习理论专栏收录该内容

7 篇文章 0 订阅

订阅专栏

任务：

1.了解什么是Machine learning

机器学习是什么

通过人为创造的程式让机器具备学习的能力，使之能解决特定的问题。更物质化一点讲，是从数据中寻找一个函数Function可以用来拟合数据。

2.学习中心极限定理，学习正态分布，学习最大似然估计

中心极限定理

中心极限定理证明了如下观点：一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小时，总的影响可以看作是服从正态分布的。
独立同分布的中心极限定理的数学表达：独立同分布的随机变量 $x_1,x_2,...,x_n$ 且数学期望和方差存在， $Ex_i=\mu$ , $Dx_i=\sigma ^2$ ,i=1,2,…,k。当n很大时，随机变量 $Y_n= \dfrac{\sum_i{x_i-n\mu}}{\sqrt n \sigma}$ 近似服从标准正态分布N(0,1)，做个变形即 $\sum_i x_i$ 近似服从均值为 $n\mu$ ,方差为 $n\sigma ^2$ 的标准正态分布。

最大似然估计

最大似然估计是一种统计学习方法，用于求解样本集的相关概率密度函数的参数。给定概率分布D，通过抽取n个样本值 $x_1,x_2,...,x_n$ 及利用概率密度函数 $f_D$ 得到参数空间的可能性表示： $like(\theta)=f_D(x_1,x_2,...,x_n|\theta)$ ，使like取最大的值即被称为参数 $\theta$ 的最大似然函数。
最大似然估计的性质：
1.泛函不变性
如果 $\theta_{hat}$ 是 $\theta$ 的一个最大似然估计，那么 $\alpha =g(\theta)$ 的最大似然估计是 $\alpha_{hat} =g(\theta_{hat})$ 。

2.渐近线行为
在采样样本总数趋于无穷的时候，最大似然估计函数达到最小方差。对于独立的观察来说，最大似然估计函数经常趋于正态分布。
最大似然估计的一般求解步骤：
（1）写出似然函数 $L(\theta)=\prod_if(x_i;\theta)$
（2）对似然函数两边取对数 $lnL(\theta)=\sum_ilnp(x_i;\theta)$
（3）对 $lnL(\theta)$ 求导数并令之为0

学习损失函数与凸函数之间的关系

损失函数用于描述当前模型预估值有多差，其输入是一个函数（ $y=b+w\cdot x$ ），在回归问题中，常见的损失函数有L1损失函数，L2损失函数；在分类问题中，常见的损失函数有交叉熵损失函数，指数损失函数等。
回归函数的损失函数
回归函数一般可以定义为 $y=w^Tx+b$ ，其损失函数为 $L(w,b)=\sum_n(y_{hat}^n-(wx^n+b))$ ，其中上标n为第n个样本的特征值。

在梯度下降算法中，若损失函数非凸，则在选择不同的初始化点后，有可能出现局部最优解；而当损失函数为凸函数时，根据凸优化的相关定理，可以证明损失函数可以取到最小值。

了解全局最优和局部最优

在这里插入图片描述
局部最优是指在当前点前后小范围内的损失函数达到最小，但从整体来看并不是最小值点，可能在其比较远的位置处还存在更小值。全局最优是指从整体来看损失函数达到最小的点。全局最优和局部最优的关系可以类比于最小值和极小值。

3.学习导数，泰勒展开

泰勒展开

函数f(x)在 $x_0$ 处的泰勒展开式为： $f(x)=\dfrac{f(x_0)}{0!}+\dfrac{f'(x_0)}{1!} (x-x_0)+\dfrac{f''(x_0)}{2!}(x-x_0)^2+...\dfrac{f^{(n)}(x_0)}{n!} (x-x_0)^n+R_n(x)$

梯度下降基本方法

对损失函数求极小化，即 $w^*,b^*=arg\min_wL(w)$ ，即可求解最优参数，其优化方法常采用梯度下降法，以下推导回归损失函数的优化方法：

随机选取 $w^0,b^0$
计算 $\dfrac{\partial L}{\partial w}|_{w=w^0,b=b^0}$ ， $\dfrac{\partial L}{\partial b}|_{w=w^0,b=b^0}$
更新参数 $w^1=w^0-\alpha\dfrac{\partial L}{\partial w}|_{w=w^0,b=b^0}$
$b^1=b^0-\alpha\dfrac{\partial L}{\partial b}|_{w=w^0,b=b^0},$
重复以上流程
注：在更新参数一步中，用到的参数 $\alpha$ 称为学习率，表示每次参数更新的步长。

回归模型的损失函数为 $L(w,b)=\sum_n(y_{hat}^n-(wx^n+b))$ ，
则 $\dfrac{\partial L}{\partial w}=\sum_n2(y_{hat}^n-(wx^n+b))(-x^n)$ , $\dfrac{\partial L}{\partial b}=\sum_n2(y_{hat}^n-(wx^n+b))(-1)$

梯度下降原理

依据泰勒公式对函数f(x)做一阶展开和二阶展开： $f(x)\approx f(x_0)+f'(x0)(x-x_0)$ 以及 $f(x)\approx f(x_0)+f'(x_0)(x-x_0)+f''(x_0)(x-x_0)^2/2$
假设： $x^t=x^{t-1}+\delta x$ ,
则根据泰勒公式的二阶展开， $f(x^t)\approx f(x^{t-1}+\delta x)f(x^{t-1})+f'(x^{t-1})\delta x +f''(x^{t-1})\delta x^2/2$ ,根据参数更新的方式令 $\theta^t=\theta^{t-1}+\delta \theta$ ,则损失函数（损失函数可以认为是参数的函数）为 $L(\theta ^t)=L(\theta^{t-1}+\delta \theta)\approx L(\theta^{t-1})+L'(\theta^{t-1})\delta\theta$ 。参数更新的目标是使损失函数不断减少，即使得 $L(\theta^t)<L(\theta^{t-1})$ ,那么 $L'(\theta^{t-1})\delta\theta<0$ ，其中 $\theta^{t-1}$ 及 $\delta\theta$ 均为向量，为保证其乘积小于0，可取 $\delta\theta=-\alpha L'(\theta^{t-1})$

写出梯度下降的代码

# 基于回归函数编写梯度下降算法
import numpy as np

np.random.seed(2019)

# 定义输入
x = np.linspace(0,10,100)
y = 1+2*x

# 初始化参数
w = np.random.randn(1,1)
b = np.zeros((1,1))
epochs=100
lr = 0.0001


def fx(x,w,b):
    return w*x+b
def gd(x,y,w,b):
    epoch=0 
    f = fx(x,w,b)
    loss = np.sum((y-fx(x,w,b)**2))
    while loss>1 or epoch<epochs:
        delta_w = -2*np.sum((y-(w*x+b))*(x))
        delta_b = -2*np.sum(y-(w*x+b))
        w -= delta_w*lr
        b -= delta_b*lr
        loss = np.sum((y-fx(x,w,b)**2))
        epoch+=1
        print('epoch:{},loss:{}'.format(epoch,loss))
    return w,b
w_new, b_new = gd(x, y, w, b)

4.学习L2-Norm，L1-Norm，L0-Norm

当模型在训练集上的正确率高但在验证集上正确率低时即发生过拟合，在发生过拟合后可以通过在原损失函数基础上添加正则项，从而约束某些参数权值过高。

具体来说，在损失函数中添加正则项 $L=\sum_n(y_{hat}^n-(b+\sum w_ix_i))^2+\lambda \sum(w_i)^2$ ，则在不断减小损失函数的过程中，模型参数是受到约束从而不会很大，在李老师的课程中提到，参数 $w_i$ 越小，output对输入的变化是不敏感的（例如输入值受到噪声影响，波动为 $\delta x_i$ ，那么输出的变化为 $\sum w_i \delta x_i$ ,如果此处的 $w_i$ 比较小，那么该噪声对输出的影响也会相应变小），也就是输出越平滑且模型效果越好。
在这里插入图片描述
对 $\lambda$ 取不同值会影响模型的最终效果，当 $\lambda$ 越大，表示考虑约束项越多，会使输出fx越平滑，那么在test data中的误差会越来越小，但是由于 $\lambda$ 越大会倾向于考虑参数原本的值而不是训练过程中的误差，所以在训练集中的error反而会随着 $\lambda$ 变大，在testing数据中，当 $\lambda$ 很大时误差反而会变小，所以需要选择合适的 $\lambda$ 。