【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导
2021年7月11日
第0章-导学
深度学习:狭义地来说,就是具有较多层的神经网络。
整个学习过程; 先看西瓜书,在看 Datawhale吃瓜教程. ,最后要看南瓜书。
2021年7月12日
第一章 绪论
1.1引言
机器学习:将“经验”以“数据”的方式存储下来 ⇒ \Rightarrow ⇒产生模型算法-学习算法 ⇒ \Rightarrow ⇒ 产生模型-分析新的数据-给出判断
训练模型-学习器
1.2基本术语
样本:记录一个事件或者一个对象的描述,通常假设 独立同分布
数据集:包含有若干个示例的样本。
属性或者特征:反映事件或对象在某方面的表现或性质的选项。 ⇒ \Rightarrow ⇒ 张成的一个空间称为属性空间
维数:样本空间D中包含了m个示例,每个示例中是d维的样本空间,d称为维数。
训练集:训练过程中使用的数据-训练数据,每一个样本称为训练样本,集合称为训练集。
标记空间:包含样例的集合是“标记空间”或者“输出空间”。
根据预测的结果不同,学习任务的种类也会不同:
只涉及两个样本:
二分类文体 ⇒ \Rightarrow ⇒ 一个类称为“正类”,一个称为“反类”
学习主要分为两类:
1.有监督学习 → \rightarrow → 样本有标记,
举例:预测的是连续值 → \rightarrow → 回归
预测的是离散值 → \rightarrow → 分类
2.无监督学习 → \rightarrow → 样本无标记 举例:聚类-分为若干个组,每一个组称为一个“簇”,学习前无标记,并且很多标签是未知的。
测试和测试样本学习完模型后,进行预测的过程称为“测试”,被预测的样本称之为“测试样本”。
泛化能力:学习模型适应新样本的能力。
1.3 假设空间
假设空间一般很大,会存在一个假设集合,也是版本空间
书中西瓜案例的假设空间和版本空间:
PS:这个地方书中说如果所有假设不存在,不存在好瓜坏瓜。于是整个假设空间的样本数为: 4 ∗ 3 ∗ 3 + 1 = 37 4*3*3+1=37 4∗3∗3+1=37
也就是说:
色泽:青绿、乌黑、浅白、其他
根蒂:硬挺、蜷缩、其他
敲声:清脆、混浊、浊响
1.4 归纳偏好
奥卡姆剃刀原理:如果有多个假设与观察一致,则选择最简单的那个。
前提:所有样本独立同分布,也就是说所有问题出现的机会和所有问题同等重要 ⇒ \Rightarrow ⇒没有免费的午餐定理NFL定理
考虑一个二分类的总误差和学习算法的关系时,经过计算,总误差和学习算法无关!
1.5发展历程
1950年图灵测试的文章中就提到了机器学习的可能。
决策树:以信息论为基础,以信息熵的最小化为目标,模拟了人对概念进行判定的树形流程。
二十世纪五十年代: