线性回归基本概念学习

最新推荐文章于 2024-04-25 15:20:27 发布

大人中小眼睛

最新推荐文章于 2024-04-25 15:20:27 发布

阅读量946

点赞数

分类专栏：学习笔记文章标签：线性回归

学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、机器学习的基本概念

监督学习：一个机器学习中的方法，可以由训练资料中学到或建立一个模式（ learning model），并依此模式推测新的实例。训练资料是由输入物件（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。
监督式学习：输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering）试图使类内差距最小化，类间差距最大化。通俗点将就是实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分类器设计。
泛化能力：指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上重要的性质。
过拟合与欠拟合可以用一张图来说明：

注释：左一为欠拟合，右一为过拟合。
欠拟合：因为对于给定数据集，欠拟合的成因大多是模型不够复杂、拟合函数的能力不够。为此可以增加迭代次数继续训练、尝试换用其他算法、增加模型的参数数量和复杂程度，或者采用Boosting等集成方法。
过拟合：过拟合成因是给定的数据集相对过于简单，使得模型在拟合函数时过分地考虑了噪声等不必要的数据间的关联。或者说相对于给定数据集，模型过于复杂、拟合能力过强。
线性回归的原理
1、线性回归（Linear Regression）是一种通过属性的线性组合来进行预测的线性
模型，其目的是找到一条直线或者一个平面或者更高维的超平面，使得预测值与真
实值之间的误差最小化。

假设有数据集 $x_1^{(0)},x_2^{(0)},...,x_n^{(0)},y_0),(x_1^{(1)},x_2^{(1)},...,x_n^{(1)},y_1),...(x_1^{(m)},x_2^{(m)},...,x_n^{(m)},y_m)$

根据以上m个观测，怎么推出下一组的 $y_n$ ,线性回归的模型拟合如下：

$h_v(x_1,x_2,...,x_n)=v_0+v_1*x_1+v_2*x_2...+v_n*x_n=\sum_{i=1}^nv_ix_i$ 。
矩阵形式为 $h_v(X)=XV$

假设函数 $h_v(X)$ 为mX1的向量,V为nx1的向量，里面有n个代数法的模型参数。X
为mxn维的矩阵。m代表样本的个数，n代表样本的特征数。

损失函数、代价函数、目标函数的定义见下：

损失函数：计算的是一个样本的误差

代价函数：是整个训练集上所有样本误差的平均

目标函数：代价函数 + 正则化项

线性回归的损失函数

一般线性回归我们用均方误差作为损失函数。损失函数的代数法表示如下：

$J(v_0,v_1,...,v_n)=\sum_{i=0}^m(h_v(x_0,x_1,...,x_n)-y_i)^2$

矩阵表达方式： $J(v)=\frac{1}{2}(XV-Y)^T(XV-T)$

线性回归的代价函数

回归函数的目标函数一般使用均方误差，同上损失函数。

线性回归参数估计的方法有二:最小二乘法与梯度下降法

最小二乘法：
一元回归：在这里插入图片描述

多元线性回归：

梯度下降法训练参数法：

线性回归模型的性能评价指标
残差估计：总体思想是计算实际值与预测值间的差值简称残差。从而实现对回归模型的评估，一般可以画出残差图，进行分析评估、估计模型的异常值、同时还可以检查模型是否是线性的、以及误差是否随机分布。
均方误差：最小化误差平方和(SSE)代价函数的平均值。
决定系数

转载学习自：
基本概念：https://www.cnblogs.com/pinard/p/6004041.html
参数推导：https://blog.csdn.net/zengfanj7041/article/details/78047159

大人中小眼睛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线性回归基本概念学习

1、机器学习的基本概念监督学习：一个机器学习中的方法，可以由训练资料中学到或建立一个模式（ learning model），并依此模式推测新的实例。训练资料是由输入物件（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。监督式学习：输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，...
复制链接

扫一扫