机器学习_个人笔记_周志华(停更中......)

ShCDNay

已于 2023-09-12 20:04:33 修改

阅读量369

点赞数

文章标签：机器学习笔记人工智能

于 2023-09-11 20:03:24 首次发布

本文链接：https://blog.csdn.net/sjoqwdk/article/details/132808599

版权

第1章绪论

1.1 引言

形成优秀的心理表征，自然能成为领域内的专家。
系统1 & 系统2。

机器学习：致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。主要研究计算机从数据中产生model的算法，即“learning algorithm”。
“经验”通常的存在形式——“数据”。

1.2 基本术语

数据集
每条记录——示例——样本
属性
属性值
属性空间——样本空间——输入空间
一个示例——特征向量（feature vector）
训练样本——训练示例（training instance）——训练例

学得模型亦称hypothesis，学习过程是为了逼近ground-truth。本书有时称模型为“学习器”(learner)。

标记空间(label space)——输出空间
分类(classificatioin)：离散值预测类的学习任务。
回归(regression): 连续值预测类任务。
binary classification任务：includes positive class & negative class。
multi-class classification

预测类任务是希望建立输入空间x到输出空间y的映射f

testing：使用学得模型进行预测的过程。
testing sample：被预测的样本。
clustering
cluster

据training data是否拥有label information，划分为supervised learning & unsupervised learning，classification和regression是前者的代表，而clustering是后者的代表。

“泛化(generalization)”能力

1.3 假设空间

科学推理的两大基本手段：induction（归纳）& deduction（演绎）。
induction: 从特殊到一般。
deduciton: 从generalization到specialization。

inductive learning（归纳学习）——从样例中学习。分为广义和狭义。

version space

1.4 归纳偏好

inductive bias：机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必有其归纳偏好，否则无法产生确定的学习结果。

Attention！！！
在这里插入图片描述
NFL定理：No Free Lunch Theorem！
NFL定理的重要前提：…
NFL Theorem的寓意：具体问题具体分析。学习算法自身的induction bias与problems是否相配，往往起决定性作用。

1.5 发展历程

20世纪50年代到70年代初：AI研究处于“推理期”。
20世纪70年代中期开始，”知识期“。
20世纪80年代，ML成为一个独立的学科领域，各种ML技术百花初绽——学习期。

本书大部分内容均属于广义的induction learning范畴，涵盖supervised learning and unsupervised learning等等。

ILP：Inductive Logic Programming（归纳逻辑程序设计）。

参数调节上失之毫厘，学习结果可能谬之千里。

statistical learning(统计学习)
Support Vector Machine（SVM，支持向量机）

深度学习：狭义地说是“很多层”的神经网络。

ML已发展为一个相当大的学科领域，本节仅管中窥豹。耐心读完本书会有更全面的了解。

1.6 应用现状

在CV及NLP等“计算机应用技术”领域，ML已成为最重要的技术进步源泉之一。ML也为许多交叉学科提供重要的技术支撑。
“数据分析”是ML技术的舞台。

ML提供数据分析能力，云计算提供数据处理能力，众包(crowdsourcing)提供数据标记能力。

数据挖掘（data mining）。
数据挖掘与机器学习的联系。
数据库领域研究为数据挖掘提供数据管理技术。ML和统计学的研究为data mining提供数据分析技术。

ML技术是建立输入与输出之间联系的内核。

奥巴马的“竞选核武器”——R.Ghani领导的机器学习团队。

如何学习？《刻意练习》《认知天性》《考试脑科学》有所介绍

1.7 阅读材料

在这里插入图片描述

第2章模型评估与选择

2.1 经验误差与过拟合

error rate: E = a/m;
accuracy: = 1 - E
error(误差)
在这里插入图片描述

training error——empirical error
generalization error
overfitting(过拟合)：学习器把训练样本学得“太好”，且将一些的训练样本自身的特点“当作”所有潜在样本具有的一般性质，导致generalization性能下降的现象。亦称“过配”。
underfitting(欠拟合)：亦称“欠配”。

underfitting比较容易克服，overfitting的则很麻烦，且overfitting的问题无法避免，只能“缓解”。
在这里插入图片描述

model selection
理想的解决方案，即选择generaliztion error最小的model.

2.2 评估方法

在这里插入图片描述

2.2.1留出法（hold-out）

hold-out: 直接将数据集D划分为两个互斥的集合，训练集S和测试集T。
在这里插入图片描述
“分层采样（stratified sampling）”：保留类别比例的采样方式。

保真性（fidelity）。
解决留出法的窘境问题，常见做法是将大约2/3 ~ 4/5的样本用于训练，剩余样本用于测试。

2.2.2 交叉验证法(cross validation)

cross validation: 将数据集D划分为k个大小相似的互斥子集。每个子集都尽可能保持数据分布的一致性，即从D中通过分层采样得到。

cross validation通常被称为“k折交叉验证(k-fold cross validation)”。
在这里插入图片描述

留一法（Leave-One-Out，简称LOO）：假定数据集D中包含m个样本，若令k = m，则得到cross validation的一个特例。
LOO优点：评估结果往往被认为比较准确；LOO缺点：数据集比较大时，训练的计算开销将会非常大，且NTF定理对实验评估方法同样适用。