机器学习 - 第一讲

最新推荐文章于 2021-01-25 08:57:19 发布

ASH9750

最新推荐文章于 2021-01-25 08:57:19 发布

阅读量621

点赞数

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

导论

什么是机器学习？

监督学习（Supervised Learning）

在监督学习中，我们给出数据组，并且已经知道正确的输出是什么样，明确输入和输出之间的关系 。

监督学习问题可以归类为 回归(regression) 和 分类(classification) 问题。

在回归问题上，我们尝试预测一个 连续(continuous) 的输出结果，也就是说我们尝试去map输入变量到一些连续的方程。

在分类问题上，我们尝试预测一个 离散(discrete) 的输出结果，也就是说我们尝试去map输入变量到离散的分类。

例如：

给定关于在房地产市场中房子占地大小的数据去预测他们的价格。价格作为关于房子占地大小的函数是一个连续的输出，所以这是一个回归问题。
回归问题：根据给定的一个男性/女性图片，预测他们的年龄
分类问题：给定一个男性/女性图片，预测他/她是否是高中生、大学生、研究生年龄。
回归问题：银行根据某人的信用历史决定是否给他贷款。

非监督学习（Unsupervised Learning）

在非监督学习中，可以解决事先不知道结果会怎么样的问题。我们不必知道数据是否有效就可以根据数据派生出结构。

我们可以通过集群（clustering）基于数据中变量之间关系的数据派生出这种结构。

非监督学习没有基于预测结果的反馈修正，就像没有老师纠正一样。

例如：

Clustering：在商学院收集1000份论文，根据词频，句子长度，页码等等相似或者不同的变量将这些论文自动的划分为几个分组。
Non-clustering：根据混乱的数据（例如语音识别音乐识别）找出结构。

单变量线性回归（Linear Regression with One Variable）

模型表示（Model Representation）

在回归问题中，我们使用输入变量去满足一个连续输出变量的期望结果函数。

单变量线性回归也叫做“univariate linear regression”。

当我们想从一个单输入值 x 预测一个单输出值 y 时使用单变量线性回归。这里我们使用监督学习，这意味着我们事先知道输入输出的关系和应该达到什么效果。

假设函数(The Hypothesis Function)

我们的假设函数通常为：

y^= h (x) = θ 0 + θ 1 x

$\hat{y} = h(x) = \theta_{0} + \theta_{1}x$

注意这个像等式一样的直线。我们根据 $\theta_0\ 和\ \theta_1 给定\ h_{\theta}(x) \ $的值，然后估计 $\hat{y}$。换句话说，我们尝试创建一个 $h_\theta$ 的函数去map我们的输入数据(x的)到我们的输出数据(y的)。

例如：

假设输入的训练组数据为：

  input      output
    x           y
    0           4
    1           7
    2           7
    3           8

现在我们随机的做一个关于 $h_{\theta}$ 的猜测：$\theta_{0} = 2, \theta_{1} = 2 $。则假设方程为 $h_{\theta}(x) = 2 + 2x$。

于是如果输入为 1 ，y 则为 4 。与实际的 y 差 3 。注意我们将会尝试大量的 $\theta_{0}$ 和 $\theta_{1}$ ，找出最合适的值（y最贴近真实值）。图形上表示的是一条最有代表性的直线。（！补图）

成本函数（Cost Function）

我们可以使用成本函数获得精确的假设函数。成本函数取得一个关于输入x的假设的结果和真实的y的对比的均值（实际上是一个比较理想的均值）

J (θ 0, θ 1) = 1 2 m \sum i = 1 m (y i^- y i) 2 = 1 2 m \sum i = 1 m (h θ (x i) - y i) 2

$J(\theta_{0}, \theta_{1}) = \frac{1}{2m}\sum_{i=1}^m (\hat{y_{i}}-y_{i})^{2} = \frac{1}{2m}\sum_{i=1}^m (h_{\theta}(x_{i})-y_{i})^{2}$

分解来看，这个方程表示的是 $\frac{1}{2}\bar{x}$， $\bar{x}$ 是 $h_{\theta}(x_{i})-y_{i}$ 的平方的均值，或者是预测值和真实值的不同。

这个方程又称“平方误差函数(Squared error function)”或者“均值平方误差（Mean squard error）”。 “均值”是一半（$\frac{1}{2m}$），这方便计算计算梯度下降（gradient descent），平方函数的导数将会抵消 $\frac{1}{2}$ .

现在我们可以具体的（通过已知的正确结果）衡量我们预测的方程的精确度，从而预测我们没有的新结果。

如果考虑可视化，训练组的数据分散在 x-y 平面。我们尝试去画一条穿过分散的数据的直线（根据 $h_{\theta}(x)$ 定义）。我们的目标是获得可能性最高的直线。可能性最高的直线应该是所有分布的点与这条垂直距离最短的直线。最理想的情况是这条线通过训练组数据所有的点，此时 $J(\theta_{0}, \theta_{1})$ 值为0。（！补图）