机器学习之线性模型

主要参考:http://scikit-learn.org/stable/modules/linear_model.html 翻译加自己的理解得来
1.线性模型
线性模型是一个通过输入变量的线性组合来进行预测的一个函数,表达式为:

y(w,x)=w0+w1x1++wpxp.

一般用向量形式写成:
y(w,x)=wTx+w0.

其中 x=(x1,x2,,xp) 是输入的变量,我们需要设计的参数是 w w0

1.1 线性回归
线性回归的目的是寻找一组系数 w 使得拟合模型的预测值和观察到的真实值之间误差的平方和最小,数学表达式如下:

minwXwy22.

对于该目标函数的求解有两种方法:
一. 最小二乘法
因为目标函数是平滑凸函数,将目标函数直接求导,可得:
2XT(Xw^y)

令上式为零,可得到 w^ 的闭式解。
XTX 为满秩时, w^=(XTX)1XTy .
注意:但当 XTX 不是满秩时,比如样本的特征超过样例数时,导致 X 的列数多余行数,这样求得的解有很多个,哪个解最好? 常见的方法是引入正则化。
二. 梯度迭代法
X 的维度过大, (XTX)1 求解比较麻烦时, 可以采用 LMS 算法进行迭代求解,步骤如下:
步骤1. 初始化训练样本、权向量;
步骤2. 选择一个训练样本,利用下列公式更新权向量:
wk=wk12μN(xi(yxTiwk1))
其中 N 表示训练样本数目。
步骤3. 重复所有样本;

在scikit-learn 框架下,线性回归采用 fit函数来take in数组X , y ,并用 coef_ 函数存储系数 w .
下面是一个简单的线性回归的例子及python代码
该例子只用到了糖尿病库的第一个特征,图片中的直线显示了真实值和预测值之间平方和最小的位置:

import matplotlib.pyplot as plt 
import numpy as np 
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score

# Load the diabetes dataset
diabetes = datasets.load_diabetes()


# Use only one feature
diabetes_X = diabetes.data[:, np.newaxis, 2]

# Split the data into training/testing sets
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]

# Split the targets into training/testing sets
diabetes_y_train = diabetes.target[:-20]
diabetes_y_test = diabetes.target[-20:]

# Create linear regression object
regr = linear_model.LinearRegression()

# Train the model using the training sets
regr.fit(diabetes_X_train, diabetes_y_train)

# Make predictions using the testing set
diabetes_y_pred = regr.predict(diabetes_X_test)

# The coefficients
print('Coefficients: \n', regr.coef_)
# The mean squared error
print("Mean squared error: %.2f"
      % mean_squared_error(diabetes_y_test, diabetes_y_pred))
# Explained variance score: 1 is perfect prediction
print('Variance score: %.2f' % r2_score(diabetes_y_test, diabetes_y_pred))

# Plot outputs
plt.scatter(diabetes_X_test, diabetes_y_test,  color='black')
plt.plot(diabetes_X_test, diabetes_y_pred, color='blue', linewidth=3)

plt.xticks(())
plt.yticks(())

plt.show()
Coefficients: 
 [ 938.23786125]
Mean squared error: 2548.07
Variance score: 0.47

线性回归模型

1.2 岭回归
岭回归通过给系数变量增加一些惩罚来解决线性回归所带来的问题。岭回归的目标函数是最小化带有惩罚项的最小误差平方和,如下所示:

minwXwy22+αw22

其中 α0 是正则化参数,它控制算法的收缩量: α 的值越大 ,收缩量也越大,这样系数将会对共线性更加稳健。下图显示了 α 值对权重的影响,可以看出, α 值越大,权重越趋于0.
这里写图片描述

例子:基于稀疏特征的文本分类
代码:
http://scikitlearn.org/stable/auto_examples/text/document_classification_20newsgroups.html#sphx-glr-auto-examples-text-document-classification-20newsgroups-py
这里写图片描述
1.3 lasso回归
lasso回归是一个估计稀疏系数的线性模型,主要用于压缩感知,目标函数如下所示:

minw12nsamplesXwy22+αw1

这里 α 是一个常量, w1 是变量的 1 范数。
例子:
http://scikit-learn.org/stable/auto_examples/applications/plot_tomography_l1_reconstruction.html#sphx-glr-auto-examples-applications-plot-tomography-l1-reconstruction-py

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值