《机器学习》周志华-CH1(绪论)

1.1引言

机器学习(Matchine-Learning)所研究的主要内容是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。可以说机器学习(Matchine-Learning)是研究关于“学习算法”的学问。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.2基本术语

  1. 一组记录的集合称为一个“数据集”(data set),其中每条记录是关于一个事件或对象的描述,称为一个“示例”(instance)或“样本”(sample)。反映事件或对象在某方面的表现或性质的事项,称为“属性”(attribute)或“特征”(feature),属性上的取值称为“属性值”(attribute value),属性张成的空间称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间”。
  2. 由于空间中的每个点对应一个坐标向量,因此也把一个示例称为一个“特征向量”(feature vector)。每个示例由d个属性描述,则d称为样本的“维数”(dimensionality)。
  3. 从数据中学得模型的过程称为“学习”(learning)或“训练”(training)。训练过程中使用的数据称为“训练数据”(training data),其中每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集”(training set)。
  4. 关于示例结果的信息称为“标记”(label),拥有了标记信息的示例称为“样例”(example),所有标记的集合称为“标记空间”(label space)或“输出空间”。
  5. 若预测的是离散值,此类学习任务称为“分类”(classification),如“好瓜”,“坏瓜”;若预测的是连续值,例如西瓜成熟度0.95、0.37,此类学习任务称为“回归”。
  6. 对只涉及两个类别的“二分类”(binary classification)任务,通常称其中一个类为“正类”(positive class),另一个为“反类”(negative class);涉及多个类别时,则称为“多分类”(multi-class classification)任务。
  7. 学得模型后,使用其进行预测的过程称为“测试”(testing),被预测的样本称为“测试样本”(testing sample)。
  8. “聚类”(clustering)有助于我们了解数据的内在规律,能为更深入地分析数据建立模型。
  9. 根据训练数据是否拥有标记信息,学习任务大致分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。
    10.学得模型适用于新样本的能力,称为“泛化”(generalization)能力。

1.3假设空间

归纳与演绎是科学推理的两大基本手段。前者是从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性的规律;后者则是从一般到特殊的“特化”(speacialization)过程,即从基础原理推演出具体状况。

1.4归纳偏好

  1. 机器学习(Matchine-Learning)算法在学习过程中对某种类型的偏好,称为“归纳偏好”,或称为“偏好”。任何一个有效的机器学习(Matchine-Learning)算法必有其归纳偏好。
  2. “奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。
  3. 在具体问题现实问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
    在这里插入图片描述
    **

1.5发展历程

  1. 机器学习(Matchine-Learning)是人工智能(AI)研究发展到一定阶段必然的产物。
  2. 决树学习技术由于简单易用,到今天仍是最常用的机器学习(Matchine-Learning)技术之一。事实上,BP算法一直是应用的最广泛的机器学习(Matchine-Learning)之一。
  3. 连接主义学习的最大局限性是其“试错性”,简单地说,其学习过程涉及大量参数,而参数的设置缺乏理论指导,主要靠手工“调参”,夸张一点说,参数调节差之毫,学习结果可能失之千里。
  4. 以往机器学习(Matchine-Learning)技术在应用中取得好性能,对使用者的要求较高;而深度学习技术涉及的模型复杂度非常高,以至于只要下功夫“调参”,把参数调节好,性能往往就好。因此,深度学习虽然缺乏严格的理论基础,但它显著降低了机器学习(Matchine-Learning)应用者的门槛,为机器学习(Matchine-Learning)技术走向工程实践带来了便利。
  5. 深度学习火起来原因有二:
  • 数据大了
  • 计算能力强了

1.6应用现状

  1. 今天,在技术科学的主动分支学科领域中,无论是多媒体、图形学,还是网络通信、软件工程,乃至体系结构、芯片设计都能找到机器学习(Matchine-Learning)技术的身影,尤其是在计算机视觉、自然语言处理(NLP)等“计算机应用技术”领域,机器学习(Matchine-Learning)已成为最重要的技术进步源泉之一。
  2. “计算”的目的往往是数据分析,而数据科学的核心也恰恰是通过分析数据来获得价值。
  3. 若要列出目前计算机科学技术中最活跃、最受瞩目的研究分支,那么机器学习(Matchine-Learning)必居其中。
  4. 美国国家科学基金会在加州大学伯克利分校启动加强计划,强调要深入研究和整合大数据时代的三个关键技术:机器学习(Matchine-Learning)、云计算、众包。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Next---YOLO

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值