算是学习笔记
搞深度学习也大半年了
依旧有云里雾里的感觉
再把基本的知识过一下
也记录一下
学习资源来自网易云课堂唐宇迪的视频材料,如有侵权,请告诉我
转载请附上出处
简单的线性回归问题不用赘述了
假设输入x为x1,x2
则参数为theta1,theta2,bias
把bias当为theta0,则置x0为1
则可以矩阵表示为
Y(预测)=theat * x 对吧
但是计算的超平面和实际的y是有区别的:
也就是说
我们假设误差e符合高斯分布的!因为现实世界中大部分数据都是符合高斯分布的
这里再限定均值为0
两个式子结合:
重点来了,我们希望的是theta * x 越接近yi 越好,也就是e越小越好
这里换了一种思想
即是说 theta * x越接近yi ,也就是越接近真实分布,也就是说e 也就越接近真实分布
假设真实分布就是正太分布
也就是说希望
似然函数越大越好,似然函数就是一项一项的乘积
每一项就是某个样本里的误差e 在高斯(真实)分布里出现的概率
这样似然函数越大,即是说整体样本的误差在现实中出现的概率就越高,就越接近现实
取对数,不改变单调性,故:另下式最大
展开化简:
去掉其中和theta无关的项目,即原似然问题转变为另下式越小越好
说白了就是 让预测值 更加的接近真实值, --》误差也就越服从高斯分布—》进行推导
然后对于转换了的目标函数求偏导
这样就得到了 theta
线性回归时可以算出theta,即直接求导,其他问题不一定可以计算出来解theta的
解不出来的话 就要用梯度下降了 梯度下降其实还更好理解的