周志华《机器学习》总结--第一章绪论

最新推荐文章于 2023-04-16 19:19:07 发布

Non-professial

最新推荐文章于 2023-04-16 19:19:07 发布

阅读量509

点赞数 1

分类专栏：人工智能文章标签： q

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28684963/article/details/81271672

版权

人工智能专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、什么是机器学习？

人类生活中会做出很多涉及基于经验做出的预判，比如看到微湿路面、感到和风、看到晚霞，就可以认为明天有一个好天气。这是因为我们已经积累了很多生活经验，而通过对经验的利用，就能对未发生的情况做出有效预判。

机器学习正是这样一门学科，它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”的形式存在。因此，机器学习所研究的主要内容，就是关于在计算机上从数据中产生“模型”的算法，即“学习算法”。更形式化的定义是：假设用P来评估计算机程序在某类任务T上的性能，若一个程序通过利用经验E在T中的任务上获得了性能的改善，我们就说关于T和P，该程序对E进行了学习。（“模型”泛指从数据中学得的结果。）

二、基本术语

要进行机器学习先要有数据，假定我们收集了一批关于西瓜的数据，例如（色泽=青绿，根蒂=蜷缩，敲声=浊响），（色泽=乌黑，根蒂=稍蜷，敲声=沉闷）……

以下为机器学习术语：

1.数据集（data set）：由上述记录组成的集合成为数据集

2.示例(instance)/样本(sample)/特征向量(feature vector)：每条记录是一个示例或样本

3.属性(attribute)/特征(feature)：反应事件或对象在某方面的表现或性质的事项，例如色泽、根蒂、敲声

4.属性值(attribute value)：属性上的取值，例如青绿、蜷缩、浊响

5.属性空间(attribute space)/样本空间(sample space)/输入空间：属性张成的空间

6.样本维数：样本的属性个数

7.学习(learning)/训练(training)：从数据中学得模型的过程

8.训练数据(training data)：训练过程中使用的数据

9.训练样本(training sample)/训练例(training instance)：训练数据中的每个样本

10.训练集(training set)：训练样本组成的集合

11.假设(hypothesis)：学得模型对应了关于数据的某种潜在的规律

12.学习器(learner)：模型

13.标记(label)：示例的结果信息，例如好瓜，坏瓜

14.样例(example)：拥有标记信息的示例

15.标记空间(label space)/输出空间：所有标记的集合

16.分类(classification)：欲预测的是离散值的学习任务

17.回归(regression)：欲预测的是连续值的学习任务

18.二元分类(binary classification)：只涉及两个类别的分类任务

19.正类(positive class)：二元分类任务中的其中一类

20.反类(negative class)：二元分类任务中的另外一类

21.测试样本(testing sample)/测试例(testing instance)：被预测的样本

22.监督学习(supervised learning)：训练数据含有标记的学习任务

23.无监督学习(unsupervised learning)：训练数据不含有标记的学习任务

24.泛化能力(generalization)：学得的模型适用于新样本的能力

25.假设空间：所有假设组成的空间

27.版本空间：存在着一个与训练集一致的假设集合

28.归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好

29.奥卡姆剃刀原则(Occam's razor)：若有多个假设与观察一致，则选择最简单的那个

三、无免费的午餐定理

NFL定理(No Free Lunch Theorem)：无论学习算法a多聪明、学习算法b多笨拙，它们的期望性能相同。

NFL定理的前提是所有问题出现的机会相同、或所有问题同等重要。但实际情况并不是这样，很多时候，我们只关注自己正在试图解决的具体问题，希望为它找到一个解决方案，至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案，我们并不关心。

所以，NFL定理的寓意是让我们清楚地认识到，脱离具体问题，空泛的谈论什么学习算法更好毫无意义。因为若要考虑所有潜在的问题，则所有学习算法一样好。要谈论算法的相对优劣，必须要针对具体的学习问题。在没某些问题上表现好的学习算法，在另一些问题上却可能不尽如人意，学习算法自身的归纳偏好与问题是否相配，往往会起到决定性作用。

四、机器学习的领域（网上查询整理）

模式识别=机器学习

计算机视觉=图像处理+机器学习

数据挖掘=机器学习+数据库

语音识别=语音处理+机器学习

统计学习近似机器学习

自然语言处理=文本处理+机器学习

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。