李宏毅-机器学习-笔记-P2-CSDN博客

本文链接：https://blog.csdn.net/qq_61833632/article/details/141100990

P2 机器学习基本概念（二）

一、机器如何找到函数，三步。

（一）Model——Function with unkonwn parameters

写出一个带有未知参数（parameter）的函数f，即先猜测函数可能是什么样子，基于我们对此任务本质的了解-based on domain knowledge。举例：y=b+wx:y是要预测的东西，x是已经知道的信息-feature，w-weight和b-bias是未知的、要通过资料找出来的

（二）Define Loss from Training Data

Loss is a function of parameters,Loss也是也个函数，其输入是model里的参数b和w，即L(b,w)。其输出的是给b和w一组数值时，判定这组数值是好还是不好。

例如：预计输出为一个数值时，给出一组b和w后，再带入已经得到的标注好的数据，带有label（真实值），计算出y（预测值）的值，再使用比如两值相减去绝对值，得到大量估计值与真实值之间的差距e，再求出e的平均值，得到L，L越小代表这组参数越好，L越大代表这组参数越差。根据不同需求，选择不同的e的计算方法。下图为b和w不同组合时，得到的L。

（三）Optimization(最佳化)

找到一组最小的一组w和b能够使L最小的方法——Gradient Descent

例如：L只有一个参数w，w不同时得到的L也是不同的，可以画出Error Surface,先随机选出一个点w0，然后w为w0时的微分是多少，即看斜率。微分<0,w变大一步；微分>0,w减小一步。步伐应该多大？1.越斜，步伐越大2.取决于η=learning rate（学习率）：是由自己设置——此种参数叫做hyper parameter（超参数），学习率越大，w变化越快，反之，则反。

然后不断更新，当机器达到w更新次数时停止，此次数由自己设置，也是超参数；或者找到了最好的w值停止。但是此种方法会有找到了Local minima而非是global minima的问题。

然后就可推广到两个参数的情况。

但这以上三步都是根据现有已知的资料处理，是Training（训练）的过程，而我们真正在意的是还未发生的事，即对未知进行预测。

然后预测后，发现此任务呈现周期性，结果与前七天有关，每七天一个周期，将考虑天数改为7天，w即改为wj,j是1~7，wj代表前第j天的参数，再乘上前第j天人数xj，最后累加再加常数，得到这天的预测人数，则又修改model看能否再提高准确率，发现有所提高，又增加为28天，又有所提高，再修改为56天，发现提高不大。

二、第一步：Piecewise Linear Curves

Linear Model也许太过简单，形如y=b+wx称作Linear model，w可以改变这个model的斜率，设定不同的b来，改变直线与y的交点，无论如何更改b和w，都是一条直线，无法拟合先增大后减小的线，如下图红色线。这种情况说明linear model有限制，我们称为model bias。因此我们需要更复杂的、更有弹性的model。

上图红色线可以组合相加（常数+蓝线）来得到，这种类似于锯齿状的线，我们成为piecewise linear curve,都可以用上述方法来表示。即使是平滑的、弯曲的曲线，只要选取足够多的点，对应上图中折线的折点，那么也可以足够多的蓝线组合，来逼近表示出来。那怎么表示出来这条“蓝线”（通常称为hard sigmoid）呢？——使用sigmoid函数（s型的function）来逼近表示。

使用w改变斜率，b来左右移动，c来改变高度，从而可以逼近贴合任意一条曲线。从而减少了model的bias,使我们的model更有弹性，更多的feature。

0：b是上述的“常数+蓝线”中的常数，控制曲线上下移动，使曲线能够逼近，是整个红线function的常数。而后边的1.2.3是“常数+蓝线”中的蓝线。现在也就是完成了开始任务前的设函数的部分，即为了更好的拟合逼近此任务的函数，由linear model变为现在的更有弹性的Piecewise Linear Curves。

然后就像之前linear model一样，考虑之前更多天的影响，将函数增加了更多的features，现在函数复杂了之后仍然可以考虑前几天的影响，即增加more features。其中的wij代表在组成“红线”的第i个“蓝线”函数上的前第j天的影响参数。最后得到了增加参数的function，如下图：

sigmoid函数括号里详解，虽然看着很复杂，可以用线性代数来简洁表示：

r经过sigmoid函数，然后再与c的转置相乘，再加b，最后得到y,总体过程如下图所示：

其中的x是feature是已知的，而常数b、向量b、w、c转置都是未知的参数，然后把所有未知矩阵的一行或者一列都放在一起，组成θ矩阵，一律统称θ（如下图），然后至此就完成了机器学习框架的第一步：定义一个含有未知参数的方程

三、第二步：Loss函数变化

有了新的model后，Loss函数也会有所不同，之前Loss的参数是w和b,用θ代表所有的未知参数后，Loss函数的变量也变为了未知参数矩阵θ：L(θ)，则现在此Loss函数就是表示的当θ为一组数值时，会有多好或者多不好。

（一）给定未知参数θ一组数值

（二）带入feature（已知的x）得到预测值y

（三）再计算预测值与真实值label之间的差距e

（四）再把所有的e加起来求平均

四、Optimization of new model

optimization就是找一组能够使Loss最小的θ，称为θ*，Loss越小越好。

（一）首先初始随机选一个θ0

（二）对每一个未知参数都去计算它对L微分，之后集合起来就是一个向量，称为Gradient

（三）算出Gradient后就要更新参数了，由θ0到θ1，再重复。

五、Epoch与Update

假设我们有N个资料，我们并不是用所有的资料来算出一个L，然后再算gradient，然后再更新θ。而是将全部N个资料，将每B个为一组（自己设置，也是一个hyper parameter），称为一个batch，给定一个θ0后，用一个batch来算出一个L1，然后在算出gradient，来更新参数得到θ1。然后使用θ1在下一组batch上计算L2，然后计算gradient，然后更新参数得到θ2，然后重复下去。

所有batch算过一次称作一个epoch,每一次更新参数叫做一次update。例如：N=10000，B=10，则1epoch有1000updates；N=1000，B=100，则1epoch有10updates。

六、ReLU函数

可以使用其他常见函数来表示出sigmoid

两个ReLU相加可以得到Sigmoid，两个ReLU右侧斜率相反，相加正好为一个常数，左侧都是零，相加正好是SIgmoid函数。

注意观察图像，明白是相加而不是分段函数！

七、再次修改模型-Deep Learning

本来是（b+wx）通过θ函数得到a矩阵，现在也可以通过ReLU函数，然后这个过程可以反复的多做几次，通过下图方便看出，把a看作开始的x，再与w'相乘加b'（与前一个过程的w和b不是同一个参数，是另外的参数）,再通过sigmoid函数或者ReLU函数，可以反复多次，至于多少次可以自行决定，又是一个hyperparameter。