[机器学习笔记]一:Linear Regression(线性回归)

最近开始进行机器学习(目前是个noob),学习了很长一段时间后发现,看了后面忘了前面,于是决定做一个学习笔记
本专题将顺着斯坦福公开课的讲义一路写下去,可能不会有太多的个人见解,可能更像是讲义中知识点的概括,文章风格可能会带有比较浓厚的个人风格且文笔较烂,而且大概率会出现错误,如果有大手子见到了这篇博客(尽管我认为不会有人看我的博客),还请在评论中斧正

下面进入正题:

1. 简述

众所周知,房价会受到面积、房间数量的影响,那么这两个参数对房价的影响是怎样的呢?

对于这个问题,我们假设面积和房间数量为x,其中x是一个二元对,房价为y,那么这个问题,就是找到一个h,使 h(x)=y h ( x ) = y
当然,样本可能有多个,而且实际的参数数量也不会是面积和房间数量两个,因此我们记 x(i)j x j ( i ) 为第i个样本的第j个参数
并且我们假设h的形式为

hθ(x)=ni=0θixi(28) (28) h θ ( x ) = ∑ i = 0 n θ i x i

其中 x0 x 0 的值为1
那么h可以化简为
h(x)=θTx(29) (29) h ( x ) = θ T x

接着,我们定义代价函数
J(θ)=12mi=0(hθ(x(i))y(i))2(30) (30) J ( θ ) = 1 2 ∑ i = 0 m ( h θ ( x ( i ) ) − y ( i ) ) 2

其中x为向量,y为实数
显然, J(θ) J ( θ ) 的值越小,h(x)就越符合条件

2. LMS algorithm(最小均方算法)

为了求出 J(θ) J ( θ ) 的最小值 ,我们需要使用梯度下降的方法,规则为

θj=θjαθjJ(θj)(5) (5) θ j = θ j − α ∂ ∂ θ j J ( θ j )

α α 为学习速率
J(θ)θj=θj+α(yhα(x(i)))x(i)j J ( θ ) 代 入 其 中 , 我 们 可 以 将 公 式 化 简 为 θ j = θ j + α ( y − h α ( x ( i ) ) ) x j ( i )
我们将用这条公式进行迭代,直到 θ θ 基本不变化为止

3. The normal equations(正态方程)
3.1 Matrix derivatives(衍生矩阵)

首先定义符号 : ∇ :

Af(A)=fA11fAm1fA1nfAmnARm×n,Af(A)R(6) (6) ∇ A f ( A ) = [ ∂ f ∂ A 11 ⋯ ∂ f ∂ A 1 n ⋮ ⋱ ⋮ ∂ f ∂ A m 1 ⋯ ∂ f ∂ A m n ] 其 中 A ∈ R m × n , ∇ A f ( A ) ∈ R

再有tr A为矩阵的trace(迹)

我们可以得到以下4条公式

AtrAB=BT(equ.1)(7) (7) ∇ A t r A B = B T ( e q u .1 )

ATtrAB=(Af(A))T(equ.2)(8) (8) ∇ A T t r A B = ( ∇ A f ( A ) ) T ( e q u .2 )

AtrABATC=CAB+CTABT(equ.3)(9) (9) ∇ A t r A B A T C = C A B + C T A B T ( e q u .3 )

A|A|=|A|(A1)T(equ.4)(10) (10) ∇ A | A | = | A | ( A − 1 ) T ( e q u .4 )

3.2 Least squares revisited(直接求解)

我们定义design matrix

X=(x(1))T(x(m))T(11) (11) X = [ ( x ( 1 ) ) T ⋮ ( x ( m ) ) T ]

为训练样本构成的矩阵,经过化简,我们可以得到
θJ(θ)=XTXθXTy⃗ (12) (12) ∇ θ J ( θ ) = X T X θ − X T y →

进一步可以得到
θ=(XTX)1XTy⃗ (13) (13) θ = ( X T X ) − 1 X T y →

当然,矩阵乘法的复杂度最少是 O(n2.71) O ( n 2.71 ) ,因此这种方法虽然直接,但是不一定适用,我们更多的会使用梯度下降

4. Probabilistic interpretation(概率解释)

我们在1)中得到了一个 J(θ) J ( θ ) 函数,为什么这个我们要假设为这个函数呢?下面给出解释
在实际问题中,可能或有许多因素导致结果不准确,我们把这些导致不准确的因素用变量 ϵi ϵ i 表示,那么因为

y(i)=θTx(i)+ϵ(i)(14) (14) y ( i ) = θ T x ( i ) + ϵ ( i )

p(ϵ(i))=12πσexp((ϵ(i))22σ2)(15) (15) p ( ϵ ( i ) ) = 1 2 π σ e x p ( − ( ϵ ( i ) ) 2 2 σ 2 )

可以得到
p(y(i)|x(i);θ)=12πσexp((y(i)θTx(i))22σ2)(16) (16) p ( y ( i ) | x ( i ) ; θ ) = 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 )

其中这条式子里 xθ x 和 θ 是参数,记似然函数为 L(θ) L ( θ ) ,则令似然函数的值最大,就是令
12i=1m(y(i)θTx(i))2(17) (17) 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2

的值最大,这正是我们上文提到的 J(θ) J ( θ )

5. Locally weighted linear regression(局部加权线性回归)

首先,了解了什么是欠拟合和过拟合
然后,我们在 J(θ)w(i) J ( θ ) 的 每 一 项 中 增 加 一 个 权 值 参 数 w ( i ) ,我们可以假设

w(i)=exp((x(i)x)22τ2)(18) (18) w ( i ) = e x p ( − ( x ( i ) − x ) 2 2 τ 2 )

在这个模型中, x(i)xw10 x ( i ) 与 x 的 值 越 接 近 , w 越 大 ( 接 近 1 ) , 反 之 越 小 ( 接 近 0 )

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值