1.线性模型的基本概念:
在机器学习领域,常用的线性模型包括线性回归,岭回归,套索回归,逻辑回归和线性SVC等。
线性模型的一般公式:
y=w[0]·x[0]+w[1]·x[1]+···+w[p]·x[p]+b
式中x[0],x[1],···,x[p]为数据集中特征变量的数量(这个公式表示数据集中的数据点一共有p个特征),w和b为模型的参数,y为模型对于数据的预测值。
2.线性模型的特点:
使用线性模型的前提条件,是假设目标y是数据特征的线性组合。但需要注意的是,使用一维数据集进行验证会让我们有一点偏颇,而对于特征变量较多的数据集来说,线性模型酒显得十分强大。尤其是,当训练数据集的特征变量大于数据点的数量多的时候,线性模型可以对训练数据做出近乎完美的预测。
3.最基本的线性模型——线性回归
线性回归,也称为最小二乘法(OLS),是在回归分析中最简单也是最经典的线性模型。
- 线性回归的基本原理:
线性回归的原理是,找到当训练数据集中y的预测值和其真实值的平方差最小的时候,所对应的w值和b值。
线性回归没有可供用户调节的参数,这是它的优势,但是也代表我们无法控制模型的复杂性。例子如下:
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
X,y=make_regression(n_samples