最近开始进行机器学习(目前是个noob),学习了很长一段时间后发现,看了后面忘了前面,于是决定做一个学习笔记
本专题将顺着斯坦福公开课的讲义一路写下去,可能不会有太多的个人见解,可能更像是讲义中知识点的概括,文章风格可能会带有比较浓厚的个人风格且文笔较烂,而且大概率会出现错误,如果有大手子见到了这篇博客(尽管我认为不会有人看我的博客),还请在评论中斧正
下面进入正题:
1. 简述
众所周知,房价会受到面积、房间数量的影响,那么这两个参数对房价的影响是怎样的呢?
对于这个问题,我们假设面积和房间数量为x,其中x是一个二元对,房价为y,那么这个问题,就是找到一个h,使
h(x)=y
h
(
x
)
=
y
当然,样本可能有多个,而且实际的参数数量也不会是面积和房间数量两个,因此我们记
x(i)j
x
j
(
i
)
为第i个样本的第j个参数
并且我们假设h的形式为
其中 x0 x 0 的值为1
那么h可以化简为
接着,我们定义代价函数
其中x为向量,y为实数
显然, J(θ) J ( θ ) 的值越小,h(x)就越符合条件
2. LMS algorithm(最小均方算法)
为了求出
J(θ)
J
(
θ
)
的最小值 ,我们需要使用梯度下降的方法,规则为
其 α α 为学习速率
将 J(θ)代入其中,我们可以将公式化简为θj=θj+α(y−hα(x(i)))x(i)j J ( θ ) 代 入 其 中 , 我 们 可 以 将 公 式 化 简 为 θ j = θ j + α ( y − h α ( x ( i ) ) ) x j ( i )
我们将用这条公式进行迭代,直到 θ θ 基本不变化为止
3. The normal equations(正态方程)
3.1 Matrix derivatives(衍生矩阵)
首先定义符号
∇:
∇
:
再有tr A为矩阵的trace(迹)
我们可以得到以下4条公式
3.2 Least squares revisited(直接求解)
我们定义design matrix
为训练样本构成的矩阵,经过化简,我们可以得到
进一步可以得到
当然,矩阵乘法的复杂度最少是 O(n2.71) O ( n 2.71 ) ,因此这种方法虽然直接,但是不一定适用,我们更多的会使用梯度下降
4. Probabilistic interpretation(概率解释)
我们在1)中得到了一个
J(θ)
J
(
θ
)
函数,为什么这个我们要假设为这个函数呢?下面给出解释
在实际问题中,可能或有许多因素导致结果不准确,我们把这些导致不准确的因素用变量
ϵi
ϵ
i
表示,那么因为
可以得到
其中这条式子里 x和θ x 和 θ 是参数,记似然函数为 L(θ) L ( θ ) ,则令似然函数的值最大,就是令
的值最大,这正是我们上文提到的 J(θ) J ( θ )
5. Locally weighted linear regression(局部加权线性回归)
首先,了解了什么是欠拟合和过拟合
然后,我们在
J(θ)的每一项中增加一个权值参数w(i)
J
(
θ
)
的
每
一
项
中
增
加
一
个
权
值
参
数
w
(
i
)
,我们可以假设
在这个模型中, x(i)与x的值越接近,w越大(接近1),反之越小(接近0) x ( i ) 与 x 的 值 越 接 近 , w 越 大 ( 接 近 1 ) , 反 之 越 小 ( 接 近 0 )