机器学习：从线性回归说起

最新推荐文章于 2024-08-13 01:54:14 发布

caoenze

最新推荐文章于 2024-08-13 01:54:14 发布

阅读量1.4k

点赞数

分类专栏：机器学习和深度学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/caoenze/article/details/50413729

版权

机器学习和深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

接触机器学习与深度学习仅一年的时间，现以笔记形式记录描述心得体会，必要时会实现相关算法。博客中将会提到的算法大多来自机器学习相关的书籍，如Andrew NG的机器学习讲义，李航老师的统计学习方法，机器学习实践，PRML，Understanding Machine learnning ，Foundamentation of Machine Learning 以及部分论文。总之，说到哪算到哪，或许以后不会从业机器学习相关工作，但现在还是坐下笔记为好！会在每一次博客后面附上参考来源。

何为线性回归

在机器学习的一些常用算法中，经常遇到的是两类问题：分类 和 回归。前者称为classification ,后者称为regression。区别这两类问题的关键是看输出变量y是连续变量还是离散变量。f（xi）=yi，f为学习算法要学习的假设函数，可以看做是输入变量x和输出变量y之间的映射关系。若给定任一输入变量xi，yi只有若干离散值可选，那么这输入分类问题；反之若输出yi的可选值有无穷多个，且为连续空间，则成为回归问题。 我们以Andrew Ng的机器学习讲义中的例子来说明回归问题。

问题：
　　已知房子的条件，包括居住面积、卧室个数等，预测房子的售价！
训练集

住房面积(m2)	卧室个数	售价
2104	3	400
1600	3	330
2400	3	369
1416	2	232
3000	4	540
.	.	.
.	.	.
.	.	.

　　从这部分已知的数据，我们需要学习处在住房面积（m2)、卧室个数和最终售价之间的映射关系。这便是一个典型的回归问题，因为售价为连续的变量，而非可数个离散值。这里的住房面积、卧室个数。。。便是输入变量x,输出变量y为收件。学习算法需要学习的是二者之间的映射关系f。
线性回归

　我们假设输入变量和输出变量之间存在一次（线性）关系，即若以 $x_1$ 表示住房面积，以 $x_2$ 表示卧室个数，那么线性关系可以理解为存在参数 $\theta_0$ 、 $\theta_1$ 、 $\theta_2$ ，使得售价y可以表示为：

$y = h θ (x) = θ 0 + θ 1 * x 1 + θ 2 * x 2$ $y=h_\theta(x)=\theta_0+\theta_1*x_1+\theta_2*x_2$
　　这里的 $\theta_i$ 成为参数（parameters),有时也称为权重，一般情况下这也是机器学习算法所要学习的东西。它描述了从输入变量 $x_1$ 、 $x_2$ 到s输出变量 $y$ 之间的映射关系。
　　为了简介的表示上面的关系式，我们通常会选择增加一个截距项 $x_0$ ,令 $x 0 = 1$ $x_0=1$
　　则可以向量乘表示上面的线性函数: $h (x) = \sum i = 0 2 θ i x i = θ T x$ $h(x)=\sum_{i=0}^2\theta_ix_i=\theta^Tx$
　　当输入变量x存在n个元素时，将2替换为n即可，即
　　 $h (x) = \sum i = 0 n θ i x i = θ T x$ $h(x)=\sum_{i=0}^n\theta_ix_i=\theta^Tx$
　　这里的 $\theta$ ， $x$ 均为n+1维的向量。

最小二乘法

　　那么问题来了，既然我们已经有了训练数据，也假定了输入、输出之间存在一次（线性）关系，那么究竟怎么选择参数 $\theta$ 呢？
　　一个显然的方法就是，我们选择的 $\theta$ ，要能够使得输出 $h_\theta(x_i)$ 尽可能接近于y_i，至少对训练数据如此。也就是说应尽可能使得 $|h_\theta（x_i)-y_i|$ 尽可能的小。
　　为此，我们定义损失函数（cost function)描述这个误差:
　　
$J (θ) = 1 / 2 \sum i = 1 m (h θ (x (i) - y (i)) 2$ $J(\theta)=1/2\sum_{i=1}^m(h_\theta(x^{(i)}-y^{(i)})^2$
　　这里的m为训练数据中的样本对的个数，通常样本对以 $（x^{(i)},y^i)$ 表示。至于这里为什么要以二次项表示这个误差函数，请见稍后的 为什么经常选择最小二乘法作为损失函数？部分。
　　这里定义的 $J(\theta)$ 称为 最小二乘损失函数，最小二乘法在机器学习中是很常见的。
现在我们已经定义了误差的表示，之前说过，我们的目的是选择的参数 $\theta$ 要能够使误差越小越好。那么接下来问题就变为如何最小化损失函数 $J(\theta)$ 的问题了。也就是
$m i n θ J (θ)$ $min_{\theta}　　J(\theta)$
　　接下来以两种方法来求解这个最优化问题，一个称谓随机梯度下降法，另一个称谓拉格朗日极值法。这两种方法也常用语其他机器学习算法的求解中。

随机梯度下降解法

稍后再写！

拉格朗日极值法求解（另一种解法）

Markdown　Extra　定义列表语法：项目１项目２

定义 A

定义 B

项目３

定义 C

定义 D

定义D内容

常用矩阵导数

代码块语法遵循标准markdown代码，例如：

@requires_authorization
def somefunc(param1='', param2=0):
    '''A docstring'''
    if param1 > param2: # interesting
        print 'Greater'
    return (param2 - param1 + 1) or None
class SomeClass:
    pass
>>> message = '''interpreter
... prompt'''