【机器学习】(西瓜书)第1章绪论 & 第2章模型评估与选择

bit_100

于 2022-03-16 01:39:55 发布

阅读量771

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/admin11111111/article/details/123515026

版权

机器学习专栏收录该内容

14 篇文章 10 订阅

订阅专栏

一、绪论

1. 什么是机器学习（Machine Learning）？

致力于研究如何通过计算的手段，利用数据（经验）来改善系统自身的性能。

主要研究内容：是关于在计算机上从数据中产生“模型”（model）的算法，即“学习算法”（learning algorithm）——将经验数据提供给学习算法，学习算法就能基于数据产生模型；在面对新的情况时，模型会给我们提供相应的判断。（模型泛指数据中学到的结果。）

2. 基本术语

data set: 数据集，数据记录的集合。

sample(or instance): 样本，每条数据记录（关于对象或事件的描述）。

feature(or attribute): 特征，事件或对象的性质。

attribute value: 属性值。

sample space(or attribute space): 属性空间，样本空间，或者为输入空间。

feature vector: 特征向量。将对象或事件的性质features作为坐标轴，假设西瓜的三个属性为三个坐标轴，生成三维空间，则每个西瓜都能在这个空间中找到一个坐标点。而在该空间中，每个点就是一个特征向量。

从数据中执行某个学习算法学得模型的过程称为“学习（learning）”或“训练（training）”。

training data: 训练数据，即训练过程中使用的数据。

training sample: 训练样本，即训练数据中的每个样本。

training set: 训练集，即训练样本组成的集合。

hypothesis: 假设，学得模型对应了关于数据的某种潜在的规律。

为了使得模型具有判断预测（prediction）的好坏，还需要标记（或标签，label），看预测的结果是否符合标记，这样就能知道对样本（sample）预测结果的好坏了。

example: 样例，即拥有了标记的样本。 $( \boldsymbol x_i,y_i)$ 表示第 $i$ 个样例，其中 $y_i \in \gamma$ 是样本 $\boldsymbol x_i$ 的标记， $\gamma$ 是所有标记的集合，称为标记空间“label space”或输出空间。

classification: 分类，要预测的是离散值，则学习任务称为分类。

regression: 回归，要预测的是连续值。

binary classification: 二分类，只涉及两个类别的分类学习任务。其中一个类称为正类（positive class）,另一个类为反类（negative class）。涉及多个类别，则为多分类（multi-class classification）。

一般地，预测任务是希望通过对训练集 $\{(\boldsymbol x_1,y_1),(\boldsymbol x_2,y_2), \cdots, (\boldsymbol x_m,y_m)\}$ 进行学习，建立一个从输入空间 $\chi$ 到输出空间 $\gamma$ 的映射 $f:\chi \mapsto \gamma.$

testing: 测试，学得模型后的预测过程。

testing sample: 测试样本，被预测的样本。

clustering: 聚类，将训练集中的西瓜分成若干组，每个称为一个簇（cluster）。课件之前的小专题：【聚类】专题总结——概览 + 划分聚类_bit_100的博客-CSDN博客

supervised learning: 监督学习，训练数据拥有标记信息，代表学习任务有分类和回归。

unsupervised learning: 无监督学习，训练数据无标记信息，代表学习任务为聚类。

generalization: 泛化，学得模型适用于新样本的能力。具有强泛化能力的模型能很好地适用于整个样本空间。

independent and identically distributed, iid: 独立同分布，样本空间中全体样本服从一个未知分布（distribution），获得的每一个样本都是独立地从这个分布上采样得到的。

induction: 归纳，从特殊到一般的泛化（generalization）过程，即从具体的事实归结出一般性规律。

deduction: 演绎，从一般到特殊的特化（specialization）过程，即从基础原理推演出具体状况。

hypothesis space: 假设空间。我们把学习过程看作一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集匹配（fit）的假设，即能够将训练集中的瓜判断正确的假设。

version space: 版本空间，学习过程基于有限训练集进行，在很大的假设空间中，可能存在多个假设与训练集一致，即存在这一个与训练集一致的“假设集合”，则为版本空间。

inductive bias: 归纳偏好。通过学习得到的模型对应假设空间中的一个假设。现在有三个与训练集一致的假设，但是它们对应的模型在面临同样的新样本时，会产生不同的输出。但对于一个具体的学习算法而言，必须要产生一个模型，这时学习算法就必须有其归纳偏好。

（归纳偏好可选择奥卡姆剃刀原则（Occam's razor），也可选择多释原则(principle of multiple exlanations)）

例如：（黑点：训练样本；白点：测试样本。）

如下图存在多条曲线与有限样本训练集一致，在图（a）中若归纳偏好选择模型A，模型A在测试集上效果也比模型B好，则该算法的归纳偏好与这个预测问题匹配较好。但在图（b）中，若用同样的算法偏好选择模型A，但是B的泛化能力优于A，则该算法的归纳偏好与这个问题本身不匹配。

No Free Lunch Theorem, NFL: 没有免费的午餐定理，该定理表明无论学习算法多聪明或者多笨拙它们的期望性能是相同。关键在于谈论算法性能的优劣，必须要针对具体的学习问题。如上所述，学习算法的归纳偏好与问题是否相配，往往会起到决定性的作用。

3. 发展历程

基于神经网络的连接主义（connectionism）：代表工作——感知机（Perceptron），Adaline，BP，深度学习等。性能优越，但学习算法产生的是黑盒模型。

基于统计学习的机器学习：支持向量机（support vector machine，SVM）

基于逻辑表示的符号主义（symbolism）：结构学习系统，归纳逻辑程序设计（Inductive Logic programming， ILP），概念学习系统，决策树（decision tree）。逻辑表达式明确，但假设空间太大，复杂度极高。

二、模型评估与选择

明天补上

参考文献：

[1]周志华.机器学习 [M].清华大学出版社, 2016.

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】(西瓜书)第1章绪论 & 第2章模型评估与选择

一、绪论1. 什么是机器学习（Machine Learning）？致力于研究如何通过计算的手段，利用数据（经验）来改善系统自身的性能。主要研究内容：是关于在计算机上从数据中产生“模型”（model）的算法，即“学习算法”（learning algorithm）——将经验数据提供给学习算法，学习算法就能基于数据产生模型；在面对新的情况时，模型会给我们提供相应的判断。（模型泛指数据中学到的结果。）2. 基本术语data set: 数据集，数据记录的集合。sample(or ins.
复制链接

扫一扫

专栏目录

bit_100 CSDN认证博客专家 CSDN认证企业博客

码龄6年

28: 原创

13万+: 周排名

129万+: 总排名

13万+: 访问

: 等级

674: 积分

54: 粉丝

129: 获赞

57: 评论

1171: 收藏

私信

关注

分类专栏

最新评论

支持向量机SVM Iris数据集分类预测
shmily1857467: rbf和linear写反了
【论文代码复现】Clustered Sampling: Low-Variance and Improved Representativity for Clients Selection in Fede
qq_39326864: 这里的MD跟FedProx提出的有关系吗？
基于CNN的车牌识别
verre623: 哥，我想指定你这部分的dataset中标签怎么设置的，研究了好久头都大了，不理解你训练这部分为什么能直接算出loss
基于CNN的车牌识别
east_han: 礼貌问下代码开源吗
线性回归波士顿房价预测
weixin_42581572: 报错了，显示load_boston已经把scikit-learn删除了怎么办

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。