原标题:sklearn入门之多元线性回归
本文作者:杨长青
本文编辑:胡 婧
技术总编:张学人
scikit-learn又称sklearn是基于python的一个强大的机器学习库,它建立在numpy,scipy和matplotlib模块之上能够为用户提供各种机器学习算法接口。sklearn包含了常用的分类,回归,聚类,降维,模型选择,数据预处理等机器学习方式。可以让用户简单、高效地进行数据挖掘和数据分析。
为了安装sklearn,可以直接在cmd窗口输入:
pip install sklearn
上述是Anaconda安装sklearn库的方法,如果大家仅仅安装的是python语言,则需要在安装科学计算库numpy、scipy,可视化库matplotlib的基础上,再安装sklearn。
接下来,给大家介绍如何用sklearn进行多元线性回归。
一、多元线性回归原理
多元线性回归模型的一般形式是:
其中ε表示随机误差,随机误差满足正太分布假设,无偏性假设,同方差假设,独立性假设。多元线性回归中的参数通过最小二乘法进行估计,选择合适的参数使残差平方和最小。