唐宇迪学习笔记6：线性回归算法原理推导

最新推荐文章于 2023-05-23 23:57:53 发布

小丑呀~

最新推荐文章于 2023-05-23 23:57:53 发布

阅读量597

点赞数 1

文章标签：线性回归回归机器学习

本文链接：https://blog.csdn.net/qq_40890544/article/details/123555125

版权

这篇博客介绍了回归问题的基本概念，包括通过年龄和工资预测银行贷款金额的例子。误差项被定义为真实值与预测值之间的差异，假定误差服从独立同分布的高斯分布。似然函数在此过程中起到关键作用，用于找到最佳参数以最大化预测值与真实值匹配的可能性。通过对数似然函数简化计算，通过求偏导数并令其等于零来求解参数。评估模型好坏的标准是似然函数的值越接近于1。

摘要由CSDN通过智能技术生成

4、目标:让似然函数(对数变换后也一样)越大越好

一、回归问题概述

在机器学习有监督学习中，分为两种问题：分类和回归。

1、举例

数据:工资和年龄(2个特征)

目标:预测银行会贷款给我多少钱(标签）

考虑:工资和年龄都会都会影响最终银行贷款的结果那么它们各自有多大的影响呢?(参数）

2、通俗解释

X1,X2就是我们的两个特征(年龄，工资) Y是银行最终会借给我们多少钱
找到最合适的一条线(想象一个高维)来尽可能多的拟合我们的数据点

3、数学应用

假设是 $\Theta_{1}$ 年龄的参数， $\Theta_{2}$ 是工资的参数
拟合的平面，其中（ $\Theta$ ：权重项； $\Theta _{0}$ ：偏置项微调） $h_{\Theta }(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}$
整合： $h_{\Theta}(x)=\sum_{i=0}^{n} \Theta _{i}x_{i}=\Theta ^{T}x$

二、误差项定义

误差

真实值和预测值之间肯定是要存在差异的 (用 $\varepsilon$ 来表示该误差)

对于每个样本： $y^{i}=\theta ^{T}x^{(i)}+\varepsilon ^{(i)}$

(真实值=预测值+误差项)损失函数越接近零，越好。

三、独立同分布的意义

误差 $\varepsilon ^{(i)}$ 是独立并且具有相同的分布，并且服从均值为0方差为 $\theta ^{2}$ 的高斯分布；
独立:张三和李四一起来贷款，他俩没关系；
同分布:他俩都来得是我们假定的这家银行；
高斯分布:银行可能会多给，也可能会少给，但是绝大多数情况下这个浮动不会太大，极小情况下浮动会比较大，符合正常情况；

四、似然函数的作用

预测值与误差: $y^{i}=\Theta ^{T}x^{(i)}+\varepsilon ^{(i)}$ (1)
由于误差服从高斯分布： $p(\varepsilon^{(i)})=\frac{1}{\sqrt{2\pi}}exp(-\frac{(\varepsilon ^{(i)})^{2}}{2\sigma ^{2}})$ (2)
将(1)式带入(2)式： $p(y^{(i)}|x^{(i)};\theta )=\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2\sigma ^{2}})$