《机器学习》（周志华）学习笔记（一）：绪论

最新推荐文章于 2024-04-17 17:55:44 发布

UUB

最新推荐文章于 2024-04-17 17:55:44 发布

阅读量298

点赞数 2

分类专栏：机器学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43200252/article/details/82710139

版权

机器学习笔记专栏收录该内容

6 篇文章 1 订阅

订阅专栏

1. 什么是机器学习
机器学习是一门致力于研究如何通过计算的手段，利用经验来改善系统自身的性能的学科。研究的主体内容是从数据中产生模型的算法，即“学习算法”。

2. 机器学习的基本术语汇总
数据(data)：机器学习的基础。
数据集(data set)：数据的集合。
示例(instance)/样本(sample)：每个数据记录，有时数据集也可字体作为一个样本。一般而言假定数据集中的样本服从独立同分布。
属性(attribution)/特征(feature):数据描述的对象的某种特质。其集合为属性集，属性张成的空间称为”属性空间” (attribute space) 、”样本空间” (sample space)或”输入空间”。每一个示例都可以用空间向量表示，也将其称为特征向量(feature vector)。

学习(learning)/训练(training):从数据中获取模型的过程。模型本身又称为学习器(learner)。
测试(test):使用学习到的模型进行预测的过程。被测试对象为测试样本(testing sample)。通常将数据集分为训练集和测试集两部分。

分类(classification)与回归(regression)：预测对象为离散值的学习任务为分类，预测对象为连续值得学习任务为回归。分类又有二分类(binary classification)和多分类(multi-class classification)，二分类只涉及正类(positive class)和反类(negative class)，多分类涉及多个类别。
分类和回归对应训练样本有标记，此类学习任务称为“有监督学习(supervised learning)”

聚类(clustering)：为深入理解数据内在规律，将训练集（不带标记）自动分为若干组（即簇，cluster），此类学习任务称为“无监督学习(unsupervised learning)”。

泛化(generalization)能力：学得模型适用于新样本的能力。机器学习目标就是得到泛化能力强的模型。一般而言，训练样本越多，泛化能力越强。

假设空间/版本空间：
学习的过程就是归纳的过程（区别于演绎），从假设空间中搜索，寻找与训练集匹配的假设。通常这样的假设存在多个，组成的假设集合称之为“版本空间(version space)”。

归纳偏好：
假设空间众多，选择最优模型时需要对某种类型假设有所偏好，通常采用奥卡姆剃刀（若有多个假设与观察一致，则选最简单的那个）作为一般原则。
但基于NFL 定理（”没有免费的午餐”定理），对于均匀分布情况，版本空间中所有假设的期望是一样的。启发：讨论一个算法好坏，不能脱离具体问题，需要考虑归纳偏好与问题是否匹配。

3. 机器学习发展历程

4.机器学习应用现状

课后习题

UUB

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
《机器学习》（周志华）学习笔记（一）：绪论

1. 什么是机器学习机器学习是一门致力于研究如何通过计算的手段，利用经验来改善系统自身的性能的学科。研究的主体内容是从数据中产生模型的算法，即“学习算法”。2. 机器学习的基本术语汇总数据(data)：机器学习的基础。数据集(data set)：数据的集合。示例(instance)/样本(sample)：每个数据记录，有时数据集也可字体作为一个样本。一般而言假定...
复制链接

扫一扫