线性回归基本概念学习

1、机器学习的基本概念

  • 监督学习:一个机器学习中的方法,可以由训练资料中学到或建立一个模式( learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。
  • 监督式学习:输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。通俗点将就是实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始学习分类器设计。
  • 泛化能力:指由该方法学习到的模型对未知数据的预测能力, 是学习方法本质上重要的性质。
  • 过拟合与欠拟合可以用一张图来说明:
    左一为欠拟合,右一为过拟合
    注释:左一为欠拟合,右一为过拟合。
  • 欠拟合:因为对于给定数据集,欠拟合的成因大多是模型不够复杂、拟合函数的能力不够。 为此可以增加迭代次数继续训练、尝试换用其他算法、增加模型的参数数量和复杂程度,或者采用Boosting等集成方法。
  • 过拟合:过拟合成因是给定的数据集相对过于简单,使得模型在拟合函数时过分地考虑了噪声等不必要的数据间的关联。或者说相对于给定数据集,模型过于复杂、拟合能力过强。
  • 线性回归的原理
    1、线性回归(Linear Regression)是一种通过属性的线性组合来进行预测的线性
    模型,其目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真
    实值之间的误差最小化。

假设有数据集 ( x 1 ( 0 ) , x 2 ( 0 ) , . . . , x n ( 0 ) , y 0 ) , ( x 1 ( 1 ) , x 2 ( 1 ) , . . . , x n ( 1 ) , y 1 ) , . . . ( x 1 ( m ) , x 2 ( m ) , . . . , x n ( m ) , y m ) (x_1^{(0)},x_2^{(0)},...,x_n^{(0)},y_0),(x_1^{(1)},x_2^{(1)},...,x_n^{(1)},y_1),...(x_1^{(m)},x_2^{(m)},...,x_n^{(m)},y_m) (x1(0),x2(0),...,xn(0),y0),(x1(1),x2(1),...,xn(1),y1),...(x1(m),x2(m),...,xn(m),ym)

根据以上m个观测,怎么推出下一组的 y n y_n yn,线性回归的模型拟合如下:

h v ( x 1 , x 2 , . . . , x n ) = v 0 + v 1 ∗ x 1 + v 2 ∗ x 2 . . . + v n ∗ x n = ∑ i = 1 n v i x i h_v(x_1,x_2,...,x_n)=v_0+v_1*x_1+v_2*x_2...+v_n*x_n=\sum_{i=1}^nv_ix_i hv(x1,x2,...,xn)=v0+v1x1+v2x2...+vnxn=i=1nvixi
矩阵形式为 h v ( X ) = X V h_v(X)=XV hv(X)=XV

假设函数 h v ( X ) h_v(X) hv(X)为mX1的向量,V为nx1的向量,里面有n个代数法的模型参数。X
为mxn维的矩阵。m代表样本的个数,n代表样本的特征数。

损失函数、代价函数、目标函数的定义见下:

损失函数:计算的是一个样本的误差

代价函数:是整个训练集上所有样本误差的平均

目标函数:代价函数 + 正则化项

  • 线性回归的损失函数

一般线性回归我们用均方误差作为损失函数。损失函数的代数法表示如下:

J ( v 0 , v 1 , . . . , v n ) = ∑ i = 0 m ( h v ( x 0 , x 1 , . . . , x n ) − y i ) 2 J(v_0,v_1,...,v_n)=\sum_{i=0}^m(h_v(x_0,x_1,...,x_n)-y_i)^2 J(v0,v1,...,vn)=i=0m(hv(x0,x1,...,xn)yi)2

矩阵表达方式: J ( v ) = 1 2 ( X V − Y ) T ( X V − T ) J(v)=\frac{1}{2}(XV-Y)^T(XV-T) J(v)=21(XVY)T(XVT)

  • 线性回归的代价函数
    在这里插入图片描述
    回归函数的目标函数一般使用均方误差,同上损失函数。

线性回归参数估计的方法有二:最小二乘法与梯度下降法

最小二乘法:
一元回归:在这里插入图片描述
在这里插入图片描述
多元线性回归:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
梯度下降法训练参数法:
在这里插入图片描述

  • 线性回归模型的性能评价指标
    残差估计:总体思想是计算实际值与预测值间的差值简称残差。从而实现对回归模型的评估,一般可以画出残差图,进行分析评估、估计模型的异常值、同时还可以检查模型是否是线性的、以及误差是否随机分布。
    均方误差:最小化误差平方和(SSE)代价函数的平均值。
    决定系数

转载学习自:
基本概念:https://www.cnblogs.com/pinard/p/6004041.html
参数推导:https://blog.csdn.net/zengfanj7041/article/details/78047159

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值