机器学习算法梳理(一)：线性回归

最新推荐文章于 2022-08-03 20:43:00 发布

程序员椰子橙

最新推荐文章于 2022-08-03 20:43:00 发布

阅读量492

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/devcy/article/details/85708569

版权

机器学习专栏收录该内容

32 篇文章 0 订阅

订阅专栏

本文介绍了机器学习的基础概念，包括监督学习与无监督学习，重点讲解了线性回归算法，包括其原理、损失函数、优化方法如梯度下降和正规方程，并探讨了线性回归的评估指标。同时，提到了交叉验证在防止过拟合中的作用。

摘要由CSDN通过智能技术生成

线性回归梳理

线性回归算法梳理

线性回归算法梳理

1.机器学习的一些概念

监督学习与无监督学习

监督学习有标签，监督学习的任务是学习一个模型，使模型对给定的任意的一个输入，对其都可以映射出一个预测结果。
监督学习可分为“回归”和“分类”问题。在回归问题中，我们会预测一个连续值。也就是说我们试图将输入变量和输出用一个连续函数对应起来；而在分类问题中，我们会预测一个离散值，我们试图将输入变量与离散的类别对应起来。
常见的监督学习：
K-近邻算法（k-Nearest Neighbors，KNN）
决策树（Decision Trees）
朴素贝叶斯（Naive Bayesian）

无监督学习中给定的数据没有任何标签或者说只有同一种标签。在无监督学习中，我们基本上不知道结果会是什么样子，但我们可以通过聚类的方式从数据中提取一个特殊的结构。在无监督学习中给定的数据是和监督学习中给定的数据是不一样的。
常见的无监督学习：
自编码（Autoencoding）
主成分分析（Principal components analysis）
随机森林（Random forests）
K均值聚类（K-means clustering）

在机器学习方法中，泛化能力通俗来讲就是指学习到的模型对未知数据的预测能力。在实际情况中，我们通常通过测试误差来评价学习方法的泛化能力。

过拟合指的是模型在训练集表象很好，预测集时表现不好的情况。
可以使用交叉验证避免过拟合。
欠拟合指的是模型在训练和预测时表现都不好的情况。
矫正方法是继续学习并且试着更换机器学习算法。

交叉验证

1).Hold-Out Method
将原始数据随机分为两组,一组做为训练集,一组做为验证集,利用训练集训练分类器,然后利用验证集验证模型,记录最后的分类准确率为此Hold-OutMethod下分类器的性能指标.此种方法的好处的处理简单,只需随机把原始数据分为两组即可,其实严格意义来说Hold-Out Method并不能算是CV,因为这种方法没有达到交叉的思想,由于是随机的将原始数据分组,所以最后验证集分类准确率的高低与原始数据的分组有很大的关系,所以这种方法得到的结果其实并不具有说服性.
2).K-fold Cross Validation(记为K-CV)
将原始数据分成K组(一般是均分),将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集,这样会得到K个模型,用这K个模型最终的验证集的分类准确率的平均数作为此K-CV下分类器的性能指标.K一般大于等于2,实际操作时一般从3开始取,只有在原始数据集合数据量小的时候才会尝试取2.K-CV可以有效的避免过学习以及欠学习状态的发生,最后得到的结果也比较具有说服性.
3).Leave-One-Out Cross Validation(记为LOO-CV)
如果设原始数据有N个样本,那么LOO-CV就是N-CV,即每个样本单独作为验证集,其余的N-1个样本作为训练集,所以LOO-CV会得到N个模型,用这N个模型最终的验证集的分类准确率的平均数作为此下LOO-CV分类器的性能指标.相比于前面的K-CV,LOO-CV有两个明显的优点:
a.每一回合中几乎所有的样本皆用于训练模型,因此最接近原始样本的分布,这样评估所得的结果比较可靠。
b.实验过程中没有随机因素会影响实验数据,确保实验过程是可以被复制的。
但LOO-CV的缺点则是计算成本高,因为需要建立的模型数量与原始数据样本数量相同,当原始数据样本数量相当多时,LOO-CV在实作上便有困难几乎就是不显示,除非每次训练分类器得到模型的速度很快,或是可以用并行化计算减少计算所需的时间.

2.线性回归的原理

线性回归在假设特证满足线性关系，根据给定的训练数据训练一个模型，并用此模型进行预测。
线性回归试图学得一个线性模型以尽可能准确地预测输出结果。
先从简单的模型看起：
首先，我们只考虑单组变量的情况，有：在这里插入图片描述
假设有m个数据，我们希望通过x预测的结果f(x)来估计y。其中w和b都是线性回归模型的参数。
为了能更好地预测出结果，我们希望自己预测的结果f(x)与y的差值尽可能地小，所以我们可以写出代价函数（cost function）如下：
在这里插入图片描述
接着代入f(x)的公式可以得到：

不难看出，这里的代价函数表示的是预测值f(x)与实际值y之间的误差的平方。它对应了常用的欧几里得距离简称“欧氏距离”。基于均方误差最小化来求解模型的方法我们叫做“最小二乘法”。在线性回归中，最小二乘法实质上就是找到一条直线，使所有样本数据到该直线的欧式距离之和最小，即误差最小。

3.线性回归损失函数、代价函数、目标函数

基本概念：

损失函数：计算的是一个样本的误差

代价函数：是整个训练集上所有样本误差的平均

目标函数：代价函数 + 正则化项

实际应用：

损失函数和代价函数是同一个东西，目标函数是一个与他们相关但更广的概念，举例说明：
在这里插入图片描述
上面三个图的曲线函数依次为f1(x),f2(x),f3(x)，我们想用这三个函数分别来拟合真实值Y。
我们给定x，这三个函数都会输出一个f(X)，这个输出的f(X)与真实值Y可能是相同的，也可能是不同的，为了表示我们拟合的好坏，我们就用一个函数来度量拟合的程度。这个函数就称为损失函数(loss function)，或者叫代价函数(cost function)。

在这里插入图片描述
损失函数越小，就代表模型拟合的越好。那是不是我们的目标就只是让loss function越小越好呢？还不是。这个时候还有一个概念叫风险函数(risk function)。风险函数是损失函数的期望，这是由于我们输入输出的(X,Y)遵循一个联合分布，但是这个联合分布是未知的，所以无法计算。但是我们是有历史数据的，就是我们的训练集，f(X)关于训练集的平均损失称作经验风险(empirical risk)，所以我们的目标就是最小化经验风险。
在这里插入图片描述
到这里完了吗？还没有。
如果到这一步就完了的话，那我们看上面的图，那肯定是最右面的f3(x)的经验风险函数最小了，因为它对历史的数据拟合的最好嘛。但是我们从图上来看它肯定不是最好的，因为它过度学习历史数据，导致它在真正预测时效果会很不好，这种情况称为过拟合(over-fitting)。为什么会造成这种结果？大白话说就是它的函数太复杂了，都有四次方了，这就引出了下面的概念，我们不仅要让经验风险最小化，还要让结构风险最小化。
在这里插入图片描述
这个时候就定义了一个函数J(f)，这个函数专门用来度量模型的复杂度，在机器学习中也叫正则化(regularization)。常用的有L1， L2范数。到这一步我们就可以说我们最终的优化函数是：

即最优化经验风险和结构风险，而这个函数就被称为目标函数

4.优化方法

梯度下降

梯度下降法是最常用的最优化方法。在目标函数为凸函数的问题中，梯度下降法的解是全局最优解。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是最速下降法。
最速下降法只用到了梯度信息，即目标函数的一阶导数信息，而牛顿法则用到了二阶导数信息。
牛顿法的原理与梯度下降法原理相似，只是牛顿法是二阶收敛，梯度下降是一阶收敛。
在这里插入图片描述
梯度下降法，首先我们给每个参数赋值一个随机数，然后按照下面公式进行迭代：

按照最小二乘法，我们直接求出导数为0的点，但是有时候很难解出方程，就考虑使用迭代的方法，首先取一个随机数，然后每一次去想着目标结果逼近，而为了效率最高，我们向着梯度下降最快的方向，既θ在偏导数上的取值。而α是学习速率，是个很重要的参数，设置过大会导致超过最小值，过小则学习的太慢。
对右边的式子展开得到：
在这里插入图片描述
批量梯度下降迭代如下：

随机梯度下降
上面公式我们发现，每迭代一次我们都要遍历所有的数据去求和，如果数据量大的话可能计算一次很耗时，于是就有了随机梯度下降，这样虽然解决了数据量大的问题，但是学习速度比较曲折，并且学习到的结果可能只是几个局部最优解。如果数据量小建议用批量梯度下降：
在这里插入图片描述

正规方程

需要满足可逆条件
在这里插入图片描述

5.线性回归评估指标

均方误差MSE：（平方和取平均值）

均方根误差RMSE：（平方和取平均值开根号）：平均误差值

平均绝对误差MAE：（绝对值取平均）
在这里插入图片描述

RMSE>MAE大的原因：RMSE会放大误差，所以评估时应尽量让RMSE小
在这里插入图片描述

6.sklearn参数详解

官方文档参数

fit_intercept : boolean, optional, default True
whether to calculate the intercept for this model. If set to False, no intercept will be used in calculations (e.g. data is expected to be already centered).

normalize : boolean, optional, default False
This parameter is ignored when fit_intercept is set to False. If True, the regressors X will be normalized before regression by subtracting the mean and dividing by the l2-norm. If you wish to standardize, please use sklearn.preprocessing.StandardScaler before calling fit on an estimator with normalize=False.

copy_X : boolean, optional, default True
If True, X will be copied; else, it may be overwritten.

n_jobs : int or None, optional (default=None)
The number of jobs to use for the computation. This will only provide speedup for n_targets > 1 and sufficient large problems. None means 1 unless in a joblib.parallel_backend context. -1 means using all processors. See Glossary for more details.

波士顿房价数据集线性回归预测

from sklearn import datasets
from sklearn.cross_validation import train_test_split
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
from sklearn.model_selection import cross_val_predict
from numpy import shape
 
loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target
# print(shape(data_X))
# print(shape(data_y))
# print(data_X[:2, :])
# print(data_y[:2])
 
X_train, X_test, y_train, y_test = train_test_split(data_X, data_y, test_size=0.2)
# print(shape(X_train))
# print shape(X_test)
 
model = LinearRegression()
model.fit(X_train, y_train)
# print (model.coef_)
# print (model.intercept_)
 
y_pred = model.predict(X_test)
from sklearn import metrics
print "MSE:", metrics.mean_squared_error(y_test, y_pred)
 
predicted = cross_val_predict(model, data_X, data_y, cv=10)
print  "MSE:", metrics.mean_squared_error(data_y, predicted)
 
plt.scatter(data_y, predicted, color='y', marker='o')
plt.scatter(data_y, data_y,color='g', marker='+')
plt.show()