MSE
所求出mse的最小值
在这个函数中我们可以去发现
x是自变量,mse是因变量
找到最低的这个点(这个求这个点我们可以去求导)
这样的话我们最终就会找到这个最低点
微积分的复习
直线
这个函数的y值收到的这个x的值的变化更加的明显
所以说这个这个y更加的敏感
抛物线
导数y=2x
当x大于0的时候,这个导数大于0,数值也会变大
对于导数中的x的系数越大,变化的越大
导数大于0的时候这个数值和x的变化是同向的
导数小于零的时候相反的
当导数为0的时候,我们所求出来的那个值就是最值
先随机的去找一个w,
就是再去找这个w的过程,在寻找这个w的过程,也就是一个机器学习的过程
这就是一个求导的过程
机器学习的过程就是一个不断寻找的过程
不管是这个w的取值的不同,我们这个随w变化的方向是不相同的
w的取值就会使得我们的函数的变化的趋势是不同的
w是在不停的变化的,最终我们就回去找到一个最小的值
梯度下降法:就是沿着这个楼梯去不断的寻找这个相应的数值,直到找到这个值为止
如果这个寻找的这个步幅是比较的小的,这个寻找的过程是很慢的
如果这个步幅很大的时候,这个寻找的过程就是震荡的,也有可能没找到略过了,也是很慢的
这个&就是阿尔法就是学习因子,是需要我们的人工去相关的控制的
这个是需要我们根据自己的经验去进行判断的
一堆的数据塞进去,然后要去拉成一条直线,再算这条直线的过程中,得不停的去调试这个w,会产生一堆的w,然后我们把这堆的w的斜率去调试到0,的时候,也就找到了这个w的值
线性回归中的曲线肯定是这样的
我们找到的相关的值也肯定是最优值
数据量太多的时候,这个计算机是没有办法去算的
存在解,因为这n过大,所以我们直接去解方程式的时候未必能够直接去解出,所以我们需要去使用这个梯度下降的方法去进行求解
原因er:这个绝对值是在这一点是没有导数的
所以我们使用平方的时候,我们更好的去使用这个求导去使用这个线性回归
这个式子计算的时候,是非常的耗时间的
在正常的范围之中是在多有震荡的
m=1的时候震荡大,反之小
m小的时候,这个震荡太大了
m大的时候这个就是去了一个意义
这个m就是2的n次方
这个地方就是表明将GPU的性能最大的程度发挥
样本数量越大的时候,这个曲线就是越标准的
trade off--(这个就是两难的问题,我们是在这其中需要权衡的)随机之抽取一个样本,没有绝对的好与绝对的坏的
训练集的mse越小越好吗:
过拟合问题!!!
这个数据就是在训练数据之内的
这个数据就是和正常的现象就是不正确的
所以这个数据就是一个脏数据,我们拿到的数据就是出现了相关的问题
这个我们训练集的mes过小的时候,我们万一去访问到了这个数值的时候,这个数据就是出现了了问题了
我们就是要把这个训练的数值放置要的要进行的大一些
我们是不可以去无穷的训练的,在这之间训练集和测试集的之间会存在一个最低点,在这一点我们就要去暂停这个数据了
训练集
有效集
测试集
抽取m的时候我们会发现,这个m会比这个正常的数值要么要大要么要小,m越大这个震荡的幅度就会越小,这个越小这个震荡的幅度就会越大
样本的取值可以随机取值,也可以去顺序取值
当你所抽取的样本的数量过多的时候,这个误差也就变的特别小了