这是我的第86篇原创文章,关于PySpark和线性回归。
阅读完本文,你可以知道:
1 线性回归的作用
2 PySpark做线性回归
“PDFMV框架是问题-数据-特征-模型-价值五个英文字母的首字母组合而成,它是以问题为导向,数据为驱动,利用特征和模型从数据中学习到知识,以创造价值的系统化过程。”
1 线性回归简介
线性回归目标是从数据中学习到一条直线,使得残差平方和最小化。它用于研究变量之间的关系,基于线性的假设,是一种经典而常用的有监督机器学习算法。
线性回归是努力拟合出预测变量和被预测变量的映射关系,比方说:根据年龄预测一个人的工资,根据身高预测一个人的体重,根据房屋的多个属性预测房屋的价格等等。
线性回归效果的评价和分析,一是,利用训练集训练模型,利用新的数据集(测试集)测试模型的效果;二是,计算测试集上面模型的均方根误差以及拟合决定系数。拟合系数计算公式: