Table of Contents
第一章视频是很久以前看过的,现在都有些遗忘了。简单回顾了下讲义,整理出内容。
内容梗概
第一章 主要先介绍了机器学习的一些基本概念。
Tom Mitchell定义机器学习的概念是 计算机程序可以从经验E中学习某些任务T和绩效测量P,它在T中的任务中的表现,即P,会依据经验E而得到改善。通常任何机器学习问题可以分为 监督学习和非监督学习。本课程还会涉及强化学习,推荐系统。
监督学习
在有监督的学习中,我们得到一个数据集,已经知道我们的正确输出应该是什么样的,认为输入和输出之间存在关系。
监督学习问题分为“回归”和“分类”问题。 在回归问题中,我们在连续输出中预测结果,这意味着我们正在尝试将输入变量映射到某个连续函数。 在分类问题中,我们在离散输出中预测结果。 换句话说,我们正在尝试将输入变量映射到离散类别。
例如:
回归 - 鉴于一个人的照片,我们必须根据给定的图片预测他们的年龄
分类 - 鉴于患有肿瘤的患者,我们必须预测肿瘤是恶性的还是良性的。
无监督学习
无监督学习使我们能够在很少或根本不知道我们的结果应该是什么样的情况下处理问题。 我们可以从数据中导出结构,我们不一定知道变量的影响。我们可以通过基于数据中变量之间的关系对数据进行聚类来推导出这种结构。在无监督学习的情况下,没有基于预测结果的反馈。
例如:
聚类:收集1,000,000个不同基因的集合,并找到一种方法将这些基因自动分组成不同的相似或相关的不同变量组,如寿命,位置,角色等。
非聚类:“鸡尾酒会算法”允许您在混乱的环境中查找结构。 (即在鸡尾酒会上从声音网格中识别个别声音和音乐)。