机器学习1 基础

最新推荐文章于 2024-07-23 22:09:38 发布

cookcoke123

最新推荐文章于 2024-07-23 22:09:38 发布

阅读量395

点赞数

分类专栏：机器学习文章标签：机器学习笔记

本文链接：https://blog.csdn.net/cookcoke123/article/details/49766853

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

先占位，这两天传文件

监督学习：

例子1：

假设你有下面这些房价数据，图表上的每个实例都是一次房屋交易，横坐标为交易房屋的占地面积，纵坐标为房屋的交易价格。

现在，假设你希望能够预测一个 750 平方英尺的房屋的交易价格可能是多少。一种方法是根据这些数据点的分布，画一条合适的直线，然后根据这条直线来预测。在房价预测这个例子中，一个二次函数可能更适合已有的数据，我们可能会更希望用这个二次函数的曲线来进行预测。

我们称这样的学习为监督学习。称其为监督式的学习，因为我们预先给了算法“正确结果” — —即所有我们观察到的变量。

上面这个问题又称为回归问题（Regression），因为我们能预测的结果是连续地值。

例子2：

假使你希望预测一个乳腺癌是否是恶性的，你现在有的数据是不同年龄的病人和她们身上肿瘤的尺寸以及这些肿瘤是否是恶性的。如果我们将这些信息绘制成一张 2D 图表，以横坐标为肿瘤的尺寸，以纵坐标为病人的年龄，以 O 代表良性肿瘤，以 X 代表恶性肿瘤。则我们的算法要学习的问题就变成了如何分割良性肿瘤和恶性肿瘤。

这样的问题是分类问题（Classification），我们希望算法能够学会如何将数据分类到不同的类里。上面的例子中我们只适用了两个特征（features）来进行分类，现实中，我们会有非常多的特征，并且我们希望算法能够处理无限多数量的特征，在课程后面我们会介绍能够处理这样问题的算法，例如支持向量机（Support Vector Machine）。
在监督学习中，无论是回归问题还是分类问题，我们的数据都具有一个结果（房价问题中的房价，肿瘤问题中的良性与否）。

非监督学习：

非监督学中，我们的现有数据中并没有结果，我们有的只是特征，因而非监督学习要解决的问题是发现这些数据是否可以分为不同的组。

例子1：

聚类问题