【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导
2021年7月11日
第0章-导学
深度学习:狭义地来说,就是具有较多层的神经网络。
整个学习过程; 先看西瓜书,在看 Datawhale吃瓜教程. ,最后要看南瓜书。
2021年7月12日
第一章 绪论
1.1引言
机器学习:将“经验”以“数据”的方式存储下来 ⇒ \Rightarrow ⇒产生模型算法-学习算法 ⇒ \Rightarrow ⇒ 产生模型-分析新的数据-给出判断
训练模型-学习器
1.2基本术语
样本:记录一个事件或者一个对象的描述,通常假设 独立同分布
数据集:包含有若干个示例的样本。
属性或者特征:反映事件或对象在某方面的表现或性质的选项。 ⇒ \Rightarrow ⇒ 张成的一个空间称为属性空间
维数:样本空间D中包含了m个示例,每个示例中是d维的样本空间,d称为维数。
训练集:训练过程中使用的数据-训练数据,每一个样本称为训练样本,集合称为训练集。
标记空间:包含样例的集合是“标记空间”或者“输出空间”。
根据预测的结果不同,学习任务的种类也会不同:
只涉及两个样本:
二分类文体 ⇒ \Rightarrow ⇒ 一个类称为“正类”,一个称为“反类”
学习主要分为两类:
1.有监督学习 → \rightarrow → 样本有标记,
举例:预测的是连续值 → \rightarrow → 回归
预测的是离散值 → \rightarrow → 分类
2.无监督学习 → \rightarrow → 样本无标记 举例:聚类-分为若干个组,每一个组称为一个“簇”,学习前无标记,并且很多标签是未知的。
测试和测试样本学习完模型后,进行预测的过程称为“测试”,被预测的样本称之为“测试样本”。
泛化能力:学习模型适应新样本的能力。
1.3 假设空间
假设空间一般很大,会存在一个假设集合,也是版本空间
书中西瓜案例的假设空间和版本空间:
PS:这个地方书中说如果所有假设不存在,不存在好瓜坏瓜。于是整个假设空间的样本数为: 4 ∗ 3 ∗ 3 + 1 = 37 4*3*3+1=37 4∗3∗3+1=