回归

本文主要记录一下相关的概念…..

Regression

之前研究过的一些通过监督学习解决的分类问题,都具有一个共同的特征,就是其输出的类别都是离散型变量。

当我们需要去预测的对象类型是连续类型的时候,该怎么去解决它呢?

回归分析作为其解决的方法之一,它也属于监督学习算法,但是是一种特定类型的监督学习,不同于分类。

最简单的例子就是线性回归(Linear Regression),正如我们在高中课本中学到的那样,对于在二维坐标轴中一些散点数据集,我们可以进行回归分析得到一条直线(称作回归方程 - Regression equation),用于预测纵坐标的值。而其中使用的方法为最小二乘法。

评估线性回归方程的拟合程度
1、 SSE (Sum of Squared Error),误差平方和。越小说明直线的拟合程度越好。
2、 R2 ,取值介于0 - 1 ,越接近1,说明拟合效果越好!

上述值具体的计算方法:详细的线性回归的解释

逻辑回归(Logistic Regression):
逻辑回归的模型 是一个非线性模型,sigmoid函数,又称逻辑回归函数。但是它本质上又是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。可以说,逻辑回归,都是以线性回归为理论支持的。只不过,线性模型,无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。

Code

from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit (x_train, y_train)
y_pre = reg.predict(x_test)
# reg.coef_ 表示得到的斜率
# reg.intercept_ 表示得到的截距

其他的回归模型

其他一些回归模型如:多项式回归,逐步回归,岭回归(Ridge Regression),套索回归(Lasso Regression),ElasticNet回归;

在回归分析中,经常会出现多重共线性问题,那是因为我们在研究数据的过程中,总是会出现一些多维度的数据,这个时候,这些高纬度的数据就会出现多重共线性以及变量选择的问题;

如何消除多重共线性确定最佳模型,是回归分析的一个重点,套索回归模型和的作用和岭回归有些类似,都是为了减少自变量的多重共线性的影响的一种建模方法;

Min:SSE+λ|coefi|

这个方法和岭回归不同的是,它在参数估计的同时能够实现自变量精简的估计方法,其实质就是加一定的约束条件,就是用模型的回归系数的绝对值之和函数作为惩罚(正则化项)来压缩模型系数,使得一些回归系数变小。

将绝对值较小或者影响因子较小的自变量的回归系数置为零,这样做的后果和岭回归有些类似,就是牺牲了一定的估计偏差,但是能降低预测的方差从而提高预测的精准性;

这样也就达到了 特征选择 的目,在保证一定预测正确率的情况下简化了回归模型!(消除了某些特征)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值