摘要
本文是我学习过程中的问题整理,留个记录以便以后复习。下面是主要的内容来源:
- 斯坦福大学公开课—CS229
- coursera课程—machine learning
- 网络分享(因为整理在笔记上所以出处不全,感谢各位的分享,侵删)
- 个人理解(本人是初学者,如有错误欢迎指正)
正文
1. gradient descent
详细内容可见知乎问题: 如何直观形象的理解方向导数与梯度以及它们之间的关系?
1.1 方向导数
不论是导数还是偏导数都是针对的坐标轴方向,而方向导数针对的是任意方向。举例说明:
+ 导数:y = f(x),只存在一个自变量x,所以只有沿一个方向的导数,没有偏导数。
+ 偏导数:z = f(x,y),有两个自变量,所求偏导都是沿坐标轴方向。
1.2 梯度
梯度就是函数在某点最大的方向导数。函数在该点沿梯度方向(最大的方向导数)有最大的变化率。
1.3 公式
回到梯度下降的公式:
当特征只有一个时,所得cost function为一元二次函数分析如下:
Θ
在极值左边时分析同上。
1.4 同步赋值
公式中
Θ
的更新要同步,就是计算出所有
Θ
值后再进行下一次迭代。
2 概率解释
详细内容可见知乎问题: 如何理解似然函数?
2.1 概率密度
是给定 Θ 的关于联合样本值x的联合密度函数,是关于x的函数, Θ 只是参数
2.2 似然函数
给定x,变量 Θ 取不同值时X=x的可能性
这里的概率密度和似然函数只是值相等
2.3 最大似然函数
为了使模型与测量结果接近,就要使其概率积最大,也就是最大似然函数。