【机器学习 第四周】简单线性回归和多元线性回归

梳理大纲: 简单线性回归和多元线性回归
【1】简单线性回归:简单线性回归及最小二乘法的数据推导
【2】多元线性回归:多选线性回归和正规方程解及实现

参考资料:
机器学习 西瓜书
以下微信文章 From【木东居士】 公众号

From 机器学习 小组:由【木东居士】公众号 定期发起
对数据感兴趣的伙伴们 可一同在此交流学习

简单线性回归:

简单线性回归是属于回归(regression),即label为连续数值型(continuous numerical variable),如:房价、股票价格、降雨量等

什么是简单线性回归?

所谓简单,是指只有一个样本特征,即只有一个自变量;所谓线性,是指方程是线性的;所谓回归,是指用方程来模拟变量之间是如何关联的。

简单线性回归,其思想简单,实现容易(与其背后强大的数学性质相关。同时也是许多强大的非线性模型(多项式回归、逻辑回归、SVM)的基础。并且其结果具有很好的可解释性

在这里插入图片描述

我们需要一条直线,最大程度的拟合样本特征和样本数据标记之间的关系。
在二维平面中,这条直线的方程就是 y = ax + b
在这里插入图片描述
在这里插入图片描述

基本推导思路
找到一组参数,使得真实值与预测值之间的差距尽可能地小,是一种典型的机器学习算法的推导思路

我们所谓的建模过程,其实就是找到一个模型,最大程度的拟合我们的数据。 在简单线回归问题中,模型就是我们的直线方程:y = ax + b 。

要想最大的拟合数据,本质上就是找到没有拟合的部分,也就是损失的部分尽量小,就是损失函数(loss function)(也有算法是衡量拟合的程度,称函数为效用函数(utility function))
在这里插入图片描述

因此,推导思路为:
通过分析问题,确定问题的损失函数或者效用函数;
然后通过最优化损失函数或者效用函数,获得机器学习的模型

近乎所有参数学习算法都是这样的套路,区别是模型不同,建立的目标函数不同,优化的方式也不同。
回到简单线性回归问题,目标:
在这里插入图片描述
这是一个典型的最小二乘法问题(最小化误差的平方)
通过最小二乘法可以求出a、b的表达式:
在这里插入图片描述

扩展:损失函数

在机器学习中,所有的算法模型其实都依赖于最小化或最大化某一个函数,我们称之为“目标函数”。
最小化的这组函数被称为“损失函数”。什么是损失函数呢?

损失函数描述了单个样本预测值和真实值之间误差的程度。用来度量模型一次预测的好坏。
损失函数是衡量预测模型预测期望结果表现的指标。损失函数越小,模型的鲁棒性越好。。
在这里插入图片描述

最小二乘法

最小二乘法源于法国数学家阿德里安的猜想:
对于测量值来说,让总的误差的平方最小的就是真实值。这是基于,如果误差是随机的,应该围绕真值上下波动。
在这里插入图片描述
最小二乘法,所谓“二乘”就是平方的意思。
(高斯证明过:如果误差的分布是正态分布,那么最小二乘法得到的就是最有可能的值。)

线性回归中的应用
在这里插入图片描述
这里,将简单线性问题转为最优化问题。下面对函数的各个位置分量求导,导数为0的地方就是极值:
最终我们通过求导得到a、b的表达式:
在这里插入图片描述

多元线性回归

在真实世界中,一个样本通常有很多(甚至成千上万)特征值的,这就是多元线性回归。

简单线性回归,只计算前两项
但是在多元线性回归中就要学习到n+1个参数,就能求出多元线性回归预测值:
在这里插入图片描述
求解思路也与简单线性回归非常一致,目标同样是:
在这里插入图片描述
这样我们就可以改写成向量点乘的形式:
在这里插入图片描述
在这里插入图片描述
推导出可以得到多元线性回归的正规方程解:
在这里插入图片描述
但是这种朴素的计算方法,缺点是时间复杂度较高:O(n^3),在特征比较多的时候,计算量很大。
优点是不需要对数据进行归一化处理,原始数据进行计算参数,不存在量纲的问题
(多元线性没必要做归一化处理)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值