Machine Learning Day1-引言

最新推荐文章于 2024-04-25 03:17:14 发布

YungJZ

最新推荐文章于 2024-04-25 03:17:14 发布

阅读量200

点赞数

分类专栏：机器/深度学习

本文链接：https://blog.csdn.net/qq_44537267/article/details/107418330

版权

机器/深度学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

第一章绪论：初识机器学习

1.1 欢迎参加机器学习课程

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。在这门课程中，你将学习到机器学习这门技术，并可以自己实现机器学习算法。

1.2 什么是机器学习

1.2.1 机器学习的定义

Arthur Samuel（1959）：在进行特定编程的情况下，使计算机具有学习能力的研究领域。

Tom Mitchell（1998）：计算机程序从经验E(Experience)中学习，解决某一任务T(Task)，达到性能度量值P(Performance)，通过P测定在T上的表现因经验E而提高。例如在一个跳棋程序中，经验E表示程序与自己下的几万盘棋，任务T表示玩儿跳棋，性能度量P表示与对手玩儿跳棋时赢的概率。

1.2.3 常见的机器学习算法

监督学习：人类“教”计算机去做某一件事。
无监督学习：人类让计算机自己“学习”。

假设你经营着一家公司，你想开发学习算法来处理两个问题：

你有一大批同样的货物，假设你有上千件一模一样的货物等待出售，你想预测接下来的三个月能卖多少件？
你有许多用户，这时你想写一个软件来检验每一个用户的账户。对于每一个账户，你想要判断它们是否曾经被盗过？
那这两个问题，它们属于分类问题、还是回归问题?

问题一是一个回归问题，因为如果我有数千件货物，我会把它看成一个实数，即一个连续的值。因此卖出的物品数，也是一个连续的值。

问题二是一个分类问题，因为我可能会用 0 来表示账户未被盗，用 1 表示账户曾经被盗过。所以我们根据账号是否被盗过，把它们定为0 或
1，然后用算法推测一个账号是 0 还是 1，因为只有少数的离散值，所以我把它归为分类问题。

1.3 监督学习

监督学习，核心在“监督”二字，基本思想是，我们数据集中的每个样本都有相应的“正确答案”，即都被标记。再根据这些“正确答案”对新样本进行“监督”，最后得到预测结果。就像房子和肿瘤的例子那样。同时还介绍了回归问题，即通过回归来推出一个连续的输出，这里还介绍了分类问题，其目标是推出一组离散的结果。

1.4 无监督学习

监督学习的数据集，如上图左1表所示，其中每条数据都已经被标注，例如一个肿瘤是良性或恶性。所以，对于监督学习里的每条数据，我们已经清楚地知道，训练集对应的正确答案。

无监督学习，核心在“无监督”这三个字，我们数据集中的每个样本都没有相应的“正确答案”，即都未被标记，我们将这些数据交给算法，并让算法为我们从中找出某种结构。无监督学习的数据集与我们之前看到的不一样，如上图右1所示，所有数据都没有被标注，即无监督学习中没有任何的标签或者是都具有相同的标签。所以对于一个没有任何标签的数据集，无监督学习算法可以判定该数据集包含两个不同的簇（Cluster）。