机器学习基础-回归算法

一 、线性回归分析

回归问题判断条件:

1.目标值连续

线性关系模型:

二维:直线关系

三维:特征,目标值,平面关系

试图学得一个通过属性的线性组合来进行预测的函数:

线性关系(单个特征): f(x)= wx+b  w为权重 b为偏置项:为了是对于让单个特征的情况更加通用

线性关系(多个特征)如下:

线性回归:

定义:线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合

一元线性回归:涉及到的变量只有一个

多元线性回归:涉及到的变量两个或两个以上

 

 损失函数(误差大小)

 

•yi 为第i 个训练样本的真实值
h 𝑤 ( 𝑥 𝑖 ) 为第i 个训练样本特征值组合预测 函数

最小二乘法之正规方程(不做要求)

缺点:当特征过于复杂,求解速度太慢

           对于复杂的算法,不能使用正规方程求解(逻辑回归等)

最小二乘法之梯度下降(理解过程)

 

理解:沿着这个函数下降的方向找,最后就能找到山谷的最低点,然后更新W

使用:面对训练数据规模十分庞大的任务

 sklearn线性回归正规方程、梯度下降API

正规方程 :sklearn.linear_model.LinearRegression

梯度下降 :sklearn.linear_model.SGDRegressor

 sklearn回归评估API

sklearn.metrics.mean_squared_error

 梯度下降和正规方程对比

1LinearRegressionSGDRegressor评估

 2、特点:线性回归器是最为简单、易用的回归模型。

从某种程度上限制了使用,尽管如此,在不知道特征之

间关系的前提下,我们仍然使用线性回归器作为大多数

系统的首要选择。

小规模数据:LinearRegression(不能解决拟合问题)以及其它

大规模数据:SGDRegressor

过拟合和欠拟合

 

过拟合:

一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂

原因:原始特征过多,存在一些嘈杂特征,模型过于复杂是因为模型尝试去兼顾各个测试数据点

解决办法:1.进行特征选择,消除关联性大的特征(很难做);2.交叉验证(让所有数据都有过训练);3.正则化(了解)

欠拟合:

一个假设在训练数据上不能获得更好的拟合, 但是在训练数据外的数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)

欠拟合原因以及解决办法

原因:学习到数据的特征过少

解决办法:增加数据的特征数量

L2正则化

作用:可以使得W的每个元素都很小,都接近于0

优点:越小的参数说明模型越简单,越简单的模型则越不

容易产生过拟合现象

带有正则化的线性回归-Ridge

sklearn.linear_model.Ridge

 线性回归 LinearRegressionRidge对比

岭回归:回归得到的回归系数更符合实际,更可靠。另外,能让估计参数的波动范围变小,变的更稳定。在存在病态数据偏多的研究中有较大的实用价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值