mllib调参 spark_spark-MLlib之线性回归

最新推荐文章于 2022-08-30 18:52:16 发布

音乐与音响

最新推荐文章于 2022-08-30 18:52:16 发布

阅读量226

点赞数

文章标签： mllib调参 spark

本文链接：https://blog.csdn.net/weixin_31845113/article/details/112014273

版权

>>提君博客原创 http://www.cnblogs.com/tijun/ <<

假定线性拟合方程：

变量 Xi是 i 个变量或者说属性

参数 ai是模型训练的目的就是计算出这些参数的值。

线性回归分析的整个过程可以简单描述为如下三个步骤：

寻找合适的预测函数，即上文中的 h(x)h(x) ，用来预测输入数据的判断结果。这个过程时非常关键的，需要对数据有一定的了解或分析，知道或者猜测预测函数的“大概”形式，比如是线性函数还是非线性函数，若是非线性的则无法用线性回归来得出高质量的结果。

构造一个Loss函数(损失函数)，该函数表示预测的输出(h)与训练数据标签之间的偏差，可以是二者之间的差(h-y)或者是其他的形式(如平方差开方)。综合考虑所有训练数据的“损失”，将Loss求和或者求平均，记为 J(θ)J(θ) 函数，表示所有训练数据预测值与实际类别的偏差。

显然， J(θ)J(θ) 函数的值越小表示预测函数越准确(即h函数越准确)，所以这一步需要做的是找到 J(θ)J(θ) 函数的最小值。找函数的最小值有不同的方法，Spark中采用的是梯度下降法(stochastic gradient descent, SGD)。

线性回归同样可以采用正则化手段，其主要目的就是防止过拟合。

当采用L1正则化时，则变成了Lasso Regresion；当采用L2正则化时，则变成了Ridge Regression；线性回归未采用正则化手段。通常来说，在训练模型时是建议采用正则化手段的，特别是在训练数据的量特别少的时候，若不采用正则化手段，过拟合现象会非常严重。L2正则化相比L1而言会更容易收敛(迭代次数少)，但L1可以解决训练数据量小于维度的问题(也就是n元一次方程只有不到n个表达式，这种情况下是多解或无穷解的)。

在spark中分三种回归：LinearRegression、Lasso和RidgeRegression(岭回归)

采用L1正则化时为Lasso回归(元素绝对值)，采用L2时为RidgeRegression回归(元素平方)，没有正则化时就是线性回归。

比如岭回归的损失函数：

最低0.47元/天解锁文章

音乐与音响

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
mllib调参 spark_spark-MLlib之线性回归

>>提君博客原创 http://www.cnblogs.com/tijun/ <<假定线性拟合方程：变量Xi是 i 个变量或者说属性参数ai是模型训练的目的就是计算出这些参数的值。线性回归分析的整个过程可以简单描述为如下三个步骤：寻找合适的预测函数，即上文中的h(x)h(x)，用来预测输入数据的判断结果。这个过程时非常关键的，需要对数据有一定的了解或分析，知道或...
复制链接

扫一扫