机器学习之线性模型_线性模型实现实验报告-CSDN博客

主要参考：http://scikit-learn.org/stable/modules/linear_model.html 翻译加自己的理解得来
1.线性模型
线性模型是一个通过输入变量的线性组合来进行预测的一个函数，表达式为：

y (w, x) = w 0 + w 1 x 1 + \dots + w p x p .

$y(w,x)=w_{0}+w_{1}x_{1}+\cdots+w_{p}x_{p}.$
一般用向量形式写成：

y (w, x) = w T x + w 0 .

$y(\mathbf{w},\mathbf{x} )=\mathbf{w}^{T}\mathbf{x}+w_{0}.$
其中

x=(x1,x2,⋯,xp) $\mathbf{x}=(x_{1}, x_{2}, \cdots, x_{p})$ 是输入的变量，我们需要设计的参数是

w $\mathbf{w}$ 和

w0 $w_{0}$ 。

1.1 线性回归
线性回归的目的是寻找一组系数 $\mathbf{w}$ 使得拟合模型的预测值和观察到的真实值之间误差的平方和最小，数学表达式如下：

min w ∥ X w - y ∥ 22 .

$\min_{\mathbf{w}} \lVert \mathbf{X}\mathbf{w}-\mathbf{y}\rVert_{2}^{2}.$
对于该目标函数的求解有两种方法：
一. 最小二乘法
因为目标函数是平滑凸函数，将目标函数直接求导，可得：

2 X T (X w^- y)

$2\mathbf{X}^{T}(\mathbf{X}\hat{\mathbf{w}}-\mathbf{y})$
令上式为零，可得到

w^ $\hat{\mathbf{w}}$ 的闭式解。
当

XTX $\mathbf{X}^{T}\mathbf{X}$ 为满秩时，

w^∗=(XTX)−1XTy $\hat{\mathbf{w}}^{*}=(\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{y}$ .
注意：但当

XTX $\mathbf{X}^{T}\mathbf{X}$ 不是满秩时，比如样本的特征超过样例数时，导致

X $\mathbf{X}$ 的列数多余行数，这样求得的解有很多个，哪个解最好？常见的方法是引入正则化。
二. 梯度迭代法
当

X $\mathbf{X}$ 的维度过大，

(XTX)−1 $(\mathbf{X}^{T}\mathbf{X})^{-1}$ 求解比较麻烦时，可以采用 LMS 算法进行迭代求解，步骤如下：
步骤1. 初始化训练样本、权向量；
步骤2. 选择一个训练样本，利用下列公式更新权向量：

w k = w k - 1 - 2 μ N (x i (y - x T i w k - 1))

$\mathbf{w}^{k}=\mathbf{w}^{k-1}-2\frac{\mu}{N}(\mathbf{x}_{i}(y-\mathbf{x}_{i}^{T}\mathbf{w}^{k-1}))$ 其中

N $N$ 表示训练样本数目。
步骤3. 重复所有样本；

在scikit-learn 框架下，线性回归采用 fit函数来take in数组 $\mathbf{X}$ , $\mathbf{y}$ ,并用 coef_ 函数存储系数 $\mathbf{w}$ .
下面是一个简单的线性回归的例子及python代码
该例子只用到了糖尿病库的第一个特征，图片中的直线显示了真实值和预测值之间平方和最小的位置：

import matplotlib.pyplot as plt 
import numpy as np 
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score

# Load the diabetes dataset
diabetes = datasets.load_diabetes()


# Use only one feature
diabetes_X = diabetes.data[:, np.newaxis, 2]

# Split the data into training/testing sets
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]

# Split the targets into training/testing sets
diabetes_y_train = diabetes.target[:-20]
diabetes_y_test = diabetes.target[-20:]

# Create linear regression object
regr = linear_model.LinearRegression()

# Train the model using the training sets
regr.fit(diabetes_X_train, diabetes_y_train)

# Make predictions using the testing set
diabetes_y_pred = regr.predict(diabetes_X_test)

# The coefficients
print('Coefficients: \n', regr.coef_)
# The mean squared error
print("Mean squared error: %.2f"
      % mean_squared_error(diabetes_y_test, diabetes_y_pred))
# Explained variance score: 1 is perfect prediction
print('Variance score: %.2f' % r2_score(diabetes_y_test, diabetes_y_pred))

# Plot outputs
plt.scatter(diabetes_X_test, diabetes_y_test,  color='black')
plt.plot(diabetes_X_test, diabetes_y_pred, color='blue', linewidth=3)

plt.xticks(())
plt.yticks(())

plt.show()

Coefficients: 
 [ 938.23786125]
Mean squared error: 2548.07
Variance score: 0.47

线性回归模型

1.2 岭回归
岭回归通过给系数变量增加一些惩罚来解决线性回归所带来的问题。岭回归的目标函数是最小化带有惩罚项的最小误差平方和，如下所示：

min w ∥ X w - y ∥ 22 + α ∥ w ∥ 22

$\min_{\mathbf{w}}\lVert \mathbf{X}\mathbf{w}-\mathbf{y}\rVert_{2}^{2}+\alpha\lVert \mathbf{w}\rVert_{2}^{2}$
其中

α≥0 $\alpha\geq 0$ 是正则化参数，它控制算法的收缩量：

α $\alpha$ 的值越大，收缩量也越大，这样系数将会对共线性更加稳健。下图显示了

α $\alpha$ 值对权重的影响，可以看出，

α $\alpha$ 值越大，权重越趋于0.
这里写图片描述

例子：基于稀疏特征的文本分类
代码：
http://scikitlearn.org/stable/auto_examples/text/document_classification_20newsgroups.html#sphx-glr-auto-examples-text-document-classification-20newsgroups-py
这里写图片描述
1.3 lasso回归
lasso回归是一个估计稀疏系数的线性模型，主要用于压缩感知，目标函数如下所示：

min w 1 2 n samples ∥ X w - y ∥ 22 + α ∥ w ∥ 1

$\min_{\mathbf{w}}\frac{1}{2n_\text{samples}}\lVert\mathbf{X}\mathbf{w}-\mathbf{y}\rVert_{2}^{2}+\alpha\lVert \mathbf{w}\rVert_{1}$
这里

α $\alpha$ 是一个常量，

∥w∥1 $\lVert\mathbf{w}\rVert_{1}$ 是变量的

ℓ1 $\ell_{1}$ 范数。
例子：
http://scikit-learn.org/stable/auto_examples/applications/plot_tomography_l1_reconstruction.html#sphx-glr-auto-examples-applications-plot-tomography-l1-reconstruction-py