机器学习之——监督学习应用

最新推荐文章于 2024-07-24 14:49:54 发布

ITAK

最新推荐文章于 2024-07-24 14:49:54 发布

阅读量2.1k

点赞数

分类专栏：机器学习文章标签：机器学习斯坦福大学数据

本文链接：https://blog.csdn.net/qingshui23/article/details/62039626

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

最近想搞点新东西，然后就选择了机器学习，刚开始学（斯坦福大学的公开课），有很多不懂地方，如果有什么错误，欢迎指正。

首先来介绍一下什么叫回归

回归在数学上来说是给定一个点集，能够用一条曲线去拟合，如果这个曲线是一条直线，那就被称为线性回归，如果曲线是一条二次曲线，就被称为二次回归.

引入一个房屋销售的例子：

假设这里存在 $m$ 组数据 $(x,y)$ ，其具体值如下（此处 $m=5$ ）
这里写图片描述
现在介绍一下几个变量以及他们代表的含义：

m:训练集合的个数，也就是样本的个数
x:输入数据，输入的房屋面积
y:输出数据，输出的房屋价格
n:特征的个数,有多少个影响因素

引入公式以及介绍
现在让你输入一个房屋面积，让你求出他需要卖出多少钱？
这就是一个机器学习的简单例子，通过一些大量的数据让机器自己慢慢的学习和推断，让其来预测结果，我感觉这就是机器学习的本质吧。
那么今天就来学习一下线性回归方法。
因为是线性回归方法：所以我们将这些数据用线性模型 $y=kx+b$ 来表示，为此我们建立一维线性回归模型。假设一维线性模型表达式如下,用 $n$ 表示输入特征个数，为方便计算，所有的样本都加入了 $x_0=1$ 这个特征，所以维数为 $n+1$ 维。
根据数据我们可以做出一个估计函数 $h(x)$ ：
$h_\theta(x)=\theta_0 *x_0+\theta_1 *x_1+\theta_2 *x_2+...+\theta_n *x_n\\ \ \ \ \ \ \ \ \ \ =\sum_{i=0}^n\theta_i*x_i$
其中 θ 在这儿称为参数，表示调整 feature(特征) 中每个分量的影响力，究竟是哪个特征更为重要一些。为了方便计算，令 $x_0 = 1$ ,就可以用向量的方式来表示： $h_\theta(x)=\theta*x(其中\theta与x是向量)$ 代表含义如下：
$x=[x_0,x_1,x_2, ..., x_n]$ ， $\theta= \begin{bmatrix} \theta_0\\ \theta_1\\ \theta_2\\ ...\\ \theta_n \end{bmatrix}$
为了计算确定 $\theta$ 的值，我们又引入了一个误差函数或者叫为损失函数(loss function)，被叫做 $J$ 函数，其中：
$J(\theta)=\frac 1 2\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$
我们要求的也就是使得 $J(\theta)$ 最小，那么就几种方法。

第一种方法（最小二乘法）：

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得
未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化
能量或最大化熵用最小二乘法来表达。
                                                                                            ——摘自百度百科

其中最小二乘法的局限性感觉很大，首先来举个比较简单易懂的例子， $A*\theta=B$ ，其中 $A、\theta、B$ 都是向量，
$\begin{bmatrix} A_{00}&A_{01}&...&A_{0n}\\ A_{10}&A_{11}&...&A_{1n}\\ ...&...&...&...\\ A_{m0}&A_{m1}&...&A_{mn}\\ \end{bmatrix}$ * $\begin{bmatrix} \theta_0\\ \theta_1\\ ...\\ \theta_n \end{bmatrix}$ = $\begin{bmatrix} B_0\\ B_1\\ ...\\ B_m \end{bmatrix}$
其中，我们要求解的是向量 $\theta$ , 因为这个矩阵 $A(m*n)$ 不一定是方阵，所以不一定有秩，所以我们需要将 $A*\theta=B$ 这个式子的”=”两侧乘以 $A^T(A的转置)$ ，因为 $A^TA$ 一定是方阵，即有如下推导：
$A*\theta=B \\ A^TA*\theta=A^TB \\ \theta=(A^TA)^{-1}*A^TB$
所以根据最小二乘法确定的 $J(\theta)$ 中的参数 $\theta =(x^Tx)^{-1}*x^Th_\theta(x)$
因为根据最小二乘法的规则是求解最好的 $\theta$ 值，使误差平方和达到最小。在上式中，我们用输出值 $y$ 替换 $h_\theta(x)$ ，即令 $y=h_\theta(x)$ ，此时的误差肯定是最小的，说明此时的 $\theta$ 值是最好的,所以最终的 $\theta =(x^Tx)^{-1}*x^T*y$ 。
最小二乘法的局限性：输入向量 $x$ 是列满秩，而且求解矩阵的逆的时候，花费时间较多。
第二种方法（梯度下降法）：
梯度下降算法是一种求局部最优解的方法，对于 $F(x)$ ，在 $a$ 点的梯度是 $F(x)$ 增长最快的方向，那么它的相反方向则是该点下降最快的方向
其中梯度下降法又分为两种：批梯度下降法和随机(增量)梯度下降法。
(1)批梯度下降法
批梯度下降法针对的是整个数据集(training set)，通过对所有的样本的计算来求解梯度的方向，肯定找的是斜率最大的。
将误差函数或者损失函数对 $\theta$ 求导： $\frac {\partial J(\theta)}{\partial \theta_i}=\sum_{j=1}^m(h_\theta(x^{(j)})-y^{(j)})x_i^{(j)}$
解得：这里写图片描述
局限性：当训练样本数目很多时，所用的时间会很长，效率不高。
(2)随机/增量梯度下降法
随机梯度下降算法可以看成是批梯度下降的一个特殊的情形，即在随机梯度下降法中每次仅根据一个样本对模型中的参数进行调整。