主要参考:http://scikit-learn.org/stable/modules/linear_model.html 翻译加自己的理解得来
1.线性模型
线性模型是一个通过输入变量的线性组合来进行预测的一个函数,表达式为:
一般用向量形式写成:
其中 x=(x1,x2,⋯,xp) 是输入的变量,我们需要设计的参数是 w 和 w0 。
1.1 线性回归
线性回归的目的是寻找一组系数
w
使得拟合模型的预测值和观察到的真实值之间误差的平方和最小,数学表达式如下:
对于该目标函数的求解有两种方法:
一. 最小二乘法
因为目标函数是平滑凸函数,将目标函数直接求导,可得:
令上式为零,可得到 w^ 的闭式解。
当 XTX 为满秩时, w^∗=(XTX)−1XTy .
注意:但当 XTX 不是满秩时,比如样本的特征超过样例数时,导致 X 的列数多余行数,这样求得的解有很多个,哪个解最好? 常见的方法是引入正则化。
二. 梯度迭代法
当 X 的维度过大, (XTX)−1 求解比较麻烦时, 可以采用 LMS 算法进行迭代求解,步骤如下:
步骤1. 初始化训练样本、权向量;
步骤2. 选择一个训练样本,利用下列公式更新权向量:
步骤3. 重复所有样本;
在scikit-learn 框架下,线性回归采用 fit函数来take in数组
下面是一个简单的线性回归的例子及python代码
该例子只用到了糖尿病库的第一个特征,图片中的直线显示了真实值和预测值之间平方和最小的位置:
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score
# Load the diabetes dataset
diabetes = datasets.load_diabetes()
# Use only one feature
diabetes_X = diabetes.data[:, np.newaxis, 2]
# Split the data into training/testing sets
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]
# Split the targets into training/testing sets
diabetes_y_train = diabetes.target[:-20]
diabetes_y_test = diabetes.target[-20:]
# Create linear regression object
regr = linear_model.LinearRegression()
# Train the model using the training sets
regr.fit(diabetes_X_train, diabetes_y_train)
# Make predictions using the testing set
diabetes_y_pred = regr.predict(diabetes_X_test)
# The coefficients
print('Coefficients: \n', regr.coef_)
# The mean squared error
print("Mean squared error: %.2f"
% mean_squared_error(diabetes_y_test, diabetes_y_pred))
# Explained variance score: 1 is perfect prediction
print('Variance score: %.2f' % r2_score(diabetes_y_test, diabetes_y_pred))
# Plot outputs
plt.scatter(diabetes_X_test, diabetes_y_test, color='black')
plt.plot(diabetes_X_test, diabetes_y_pred, color='blue', linewidth=3)
plt.xticks(())
plt.yticks(())
plt.show()
Coefficients:
[ 938.23786125]
Mean squared error: 2548.07
Variance score: 0.47
1.2 岭回归
岭回归通过给系数变量增加一些惩罚来解决线性回归所带来的问题。岭回归的目标函数是最小化带有惩罚项的最小误差平方和,如下所示:
其中 α≥0 是正则化参数,它控制算法的收缩量: α 的值越大 ,收缩量也越大,这样系数将会对共线性更加稳健。下图显示了 α 值对权重的影响,可以看出, α 值越大,权重越趋于0.
例子:基于稀疏特征的文本分类
代码:
http://scikitlearn.org/stable/auto_examples/text/document_classification_20newsgroups.html#sphx-glr-auto-examples-text-document-classification-20newsgroups-py
1.3 lasso回归
lasso回归是一个估计稀疏系数的线性模型,主要用于压缩感知,目标函数如下所示:
这里 α 是一个常量, ∥w∥1 是变量的 ℓ1 范数。
例子:
http://scikit-learn.org/stable/auto_examples/applications/plot_tomography_l1_reconstruction.html#sphx-glr-auto-examples-applications-plot-tomography-l1-reconstruction-py