线性回归笔记(1)

唐宇迪-机器学习-课程笔记

目前笔记内容为 38课时-41课时内容(未完成)。

线性回归

例子:

工资年龄额度
40002520000
80003070000
50002835000
75003350000
120004085000

两个特征: 工资和年龄

  • 目标: * 预测银行会贷款给我多少钱(标签)

考虑:工资和年龄都会影响最终银行贷款结果,那么它们各自有多大影响?(参数)

通俗解释:

  • X1,X2 就是我们的两个特征(年龄,工资)Y是银行最终借多少钱
  • 找到最合适的一条线(想象一个高纬度)来最好的拟合我们的数据点

[外链图片转存失败(img-EN52T30t-1567350177024)(https://i.loli.net/2019/09/01/StwPVIu2qY1xQcr.png)][外链图片转存失败(img-GWVEX6yn-1567350177028)(https://i.loli.net/2019/09/01/StwPVIu2qY1xQcr.png)]

拟合平面公式: θ 0 \theta_{0} θ0 是偏置项

h θ ( x ) = θ 0 + θ 1 + θ 2 h_{\theta}(x) = \theta_0+\theta_1+\theta_{2} hθ(x)=θ0+θ1+θ2

整合:

h θ ( x ) = ∑ i = 0 n θ i x i = θ T x h_{\theta}(x)= \sum_{i=0}^n\theta_{i} x_i=\theta^Tx hθ(x)=i=0nθixi=θTx

  • $ \sum_{i=0}^n \theta_ix_i$ 表示求和

  • 误差

    真实值和预测值之间肯定是要存在差异的(用 ε \varepsilon ε 来表示误差)

对于每个样本: y ( i ) = θ T x ( i ) + ε ( i ) y^{(i)} = \theta^Tx^{(i)}+\varepsilon^{(i)} y(i)=θTx(i)+ε(i)

  • y ( i ) y^{(i)} y(i):表示真实值
  • θ T x ( i ) \theta^Tx^{(i)} θTx(i):表示预测值

误差

  • 误差 ε ( i ) \varepsilon^{(i)} ε(i) 是独立并具有相同分布,并服从均值为0方差为 θ 2 \theta^2 θ2 的高斯分布

  • 独立:张三和李四一起来贷款,他俩没关系

  • 同分布:他两都来得是我们假定的这家银行

  • 高斯分布:银行可能会多给,也可能少给,但是绝大多数情况这个浮动不会太大,极小情况浮动比较大,符合正常情况

  • 推导:

    • 预测值与误差:$y{(i)}=\thetaTx{(i)}+\varepsilon{(i)} $ (1)

    • 由于误差服从高斯分布: p ( ε ( i ) ) = 1 2 π σ exp ⁡ ( − ( ε ( i ) ) 2 2 σ 2 ) p(\varepsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(\varepsilon^{(i)})^2}{2\sigma^2}) p(ε(i))=2π σ1exp(2σ2(ε(i))2) (2)

    • 将(1)式代入(2)式: p ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ exp ⁡ ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) p(y(i)x(i);θ)=2π σ1exp(2σ2(y(i)θTx(i))2) (3)

  • 似然函数:(根据样本估计参数值)

L ( θ ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) = ∏ i = 1 m 1 2 π σ exp ⁡ ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) L(\theta) = \prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta) = \prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) L(θ)=i=1mp(y(i)x(i);θ)=i=1m2π σ1exp(2σ2(y(i)θTx(i))2)

  • 解释:什么样的参数跟我们的数据组合后恰好是真实值

  • 对数似然:

log ⁡ L ( θ ) = log ⁡ ∏ i = 1 m 1 2 π σ exp ⁡ ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) \log L(\theta) = \log \prod_{i=1}^{m} \frac{1}{\sqrt {2\pi}\sigma } \exp(- \frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) logL(θ)=logi=1m2π σ1exp(2σ2(y(i)θTx(i))2)

  • 解释:乘法难解,加法容易,对数里面乘法转换成加法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值