唐宇迪学习笔记6:线性回归算法原理推导

这篇博客介绍了回归问题的基本概念,包括通过年龄和工资预测银行贷款金额的例子。误差项被定义为真实值与预测值之间的差异,假定误差服从独立同分布的高斯分布。似然函数在此过程中起到关键作用,用于找到最佳参数以最大化预测值与真实值匹配的可能性。通过对数似然函数简化计算,通过求偏导数并令其等于零来求解参数。评估模型好坏的标准是似然函数的值越接近于1。
摘要由CSDN通过智能技术生成

目录

一、回归问题概述

1、举例

2、通俗解释

3、数学应用

二、误差项定义

误差

三、独立同分布的意义

四、似然函数的作用

1、似然函数

2、对数似然

3、展开化简

4、目标:让似然函数(对数变换后也一样)越大越好

五、参数求解

1、目标函数

​2、求偏导

3、偏导等于0

4、评估方法


一、回归问题概述

在机器学习有监督学习中,分为两种问题:分类和回归。

1、举例

        数据:工资和年龄(2个特征)

        目标:预测银行会贷款给我多少钱(标签)

         考虑:工资和年龄都会都会影响最终银行贷款的 结果那么它们各自有多大的影响呢?(参数)

2、通俗解释

  • X1,X2就是我们的两个特征(年龄,工资) Y是银行最终会借给我们多少钱
  • 找到最合适的一条线(想象一个高维)来尽可能多的拟合我们的数据点

3、数学应用

  • 假设是\Theta_{1}年龄的参数, \Theta_{2}是工资的参数
  • 拟合的平面,其中(\Theta:权重项;\Theta _{0}:偏置项 微调)h_{\Theta }(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}
  • 整合:h_{\Theta}(x)=\sum_{i=0}^{n} \Theta _{i}x_{i}=\Theta ^{T}x

二、误差项定义

误差

真实值和预测值之间肯定是要存在差异的 (用\varepsilon来表示该误差)

对于每个样本:y^{i}=\theta ^{T}x^{(i)}+\varepsilon ^{(i)}

(真实值=预测值+误差项)损失函数越接近零,越好。

三、独立同分布的意义

  • 误差\varepsilon ^{(i)}是独立并且具有相同的分布, 并且服从均值为0方差为\theta ^{2}的高斯分布;
  • 独立:张三和李四一起来贷款,他俩没关系;
  • 同分布:他俩都来得是我们假定的这家银行;
  • 高斯分布:银行可能会多给,也可能会少给,但是绝大多数情况下 这个浮动不会太大,极小情况下浮动会比较大,符合正常情况;

四、似然函数的作用

  • 预测值与误差:  y^{i}=\Theta ^{T}x^{(i)}+\varepsilon ^{(i)}        (1)
  • 由于误差服从高斯分布: p(\varepsilon^{(i)})=\frac{1}{\sqrt{2\pi}}exp(-\frac{(\varepsilon ^{(i)})^{2}}{2\sigma ^{2}})       (2)
  • 将(1)式带入(2)式:p(y^{(i)}|x^{(i)};\theta )=\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2\sigma ^{2}})

1、似然函数

 解释了什么样的参数跟我们的数据组合后恰好是真实值 (联合边缘密度等于边缘密度乘积。)  

2、对数似然

  解释了乘法难解,加法就容易了,对数里面乘法可以转换成加法

3、展开化简

求:成为y的可能性越大越好。

4、目标:让似然函数(对数变换后也一样)越大越好

五、参数求解

1、目标函数

2、求偏导

得到极值点

3、偏导等于0

4、评估方法

R^{2}的取值越接近于1我们认为模型拟合的越好。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值