【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导

本文是《机器学习公式详解》的学习笔记,从导学到模型评估,涵盖模型选择、误差分析、线性模型、决策树、神经网络及支持向量机等内容。介绍了经验误差、过拟合、交叉验证、查准率、查全率、ROC曲线等关键概念,以及线性回归、对数几率回归和LDA的原理。文章强调了泛化能力、偏差与方差之间的平衡,讨论了决策树的划分选择和神经网络的学习过程,特别是多层神经网络和局部最小、全局最小的概念。
摘要由CSDN通过智能技术生成

【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导

2021年7月11日

第0章-导学


深度学习:狭义地来说,就是具有较多层的神经网络。
整个学习过程; 先看西瓜书,在看 Datawhale吃瓜教程. ,最后要看南瓜书
2021年7月12日

第一章 绪论

1.1引言

机器学习:将“经验”以“数据”的方式存储下来 ⇒ \Rightarrow 产生模型算法-学习算法 ⇒ \Rightarrow 产生模型-分析新的数据-给出判断
训练模型-学习器

1.2基本术语

样本:记录一个事件或者一个对象的描述,通常假设 独立同分布
数据集:包含有若干个示例的样本。
属性或者特征:反映事件或对象在某方面的表现或性质的选项。 ⇒ \Rightarrow 张成的一个空间称为属性空间
维数:样本空间D中包含了m个示例,每个示例中是d维的样本空间,d称为维数。
训练集:训练过程中使用的数据-训练数据,每一个样本称为训练样本,集合称为训练集。
标记空间:包含样例的集合是“标记空间”或者“输出空间”。
根据预测的结果不同,学习任务的种类也会不同:
只涉及两个样本:
二分类文体 ⇒ \Rightarrow 一个类称为“正类”,一个称为“反类”
学习主要分为两类:
1.有监督学习 → \rightarrow 样本有标记,
举例:预测的是连续值 → \rightarrow 回归
预测的是离散值 → \rightarrow 分类
2.无监督学习 → \rightarrow 样本无标记 举例:聚类-分为若干个组,每一个组称为一个“簇”,学习前无标记,并且很多标签是未知的。
测试和测试样本学习完模型后,进行预测的过程称为“测试”,被预测的样本称之为“测试样本”。
泛化能力:学习模型适应新样本的能力。

1.3 假设空间


假设空间一般很大,会存在一个假设集合,也是版本空间
书中西瓜案例的假设空间和版本空间:


PS:这个地方书中说如果所有假设不存在,不存在好瓜坏瓜。于是整个假设空间的样本数为: 4 ∗ 3 ∗ 3 + 1 = 37 4*3*3+1=37 433+1=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值