【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导

【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导

2021年7月11日

第0章-导学


深度学习:狭义地来说,就是具有较多层的神经网络。
整个学习过程; 先看西瓜书,在看 Datawhale吃瓜教程. ,最后要看南瓜书
2021年7月12日

第一章 绪论

1.1引言

机器学习:将“经验”以“数据”的方式存储下来 ⇒ \Rightarrow 产生模型算法-学习算法 ⇒ \Rightarrow 产生模型-分析新的数据-给出判断
训练模型-学习器

1.2基本术语

样本:记录一个事件或者一个对象的描述,通常假设 独立同分布
数据集:包含有若干个示例的样本。
属性或者特征:反映事件或对象在某方面的表现或性质的选项。 ⇒ \Rightarrow 张成的一个空间称为属性空间
维数:样本空间D中包含了m个示例,每个示例中是d维的样本空间,d称为维数。
训练集:训练过程中使用的数据-训练数据,每一个样本称为训练样本,集合称为训练集。
标记空间:包含样例的集合是“标记空间”或者“输出空间”。
根据预测的结果不同,学习任务的种类也会不同:
只涉及两个样本:
二分类文体 ⇒ \Rightarrow 一个类称为“正类”,一个称为“反类”
学习主要分为两类:
1.有监督学习 → \rightarrow 样本有标记,
举例:预测的是连续值 → \rightarrow 回归
预测的是离散值 → \rightarrow 分类
2.无监督学习 → \rightarrow 样本无标记 举例:聚类-分为若干个组,每一个组称为一个“簇”,学习前无标记,并且很多标签是未知的。
测试和测试样本学习完模型后,进行预测的过程称为“测试”,被预测的样本称之为“测试样本”。
泛化能力:学习模型适应新样本的能力。

1.3 假设空间


假设空间一般很大,会存在一个假设集合,也是版本空间
书中西瓜案例的假设空间和版本空间:


PS:这个地方书中说如果所有假设不存在,不存在好瓜坏瓜。于是整个假设空间的样本数为: 4 ∗ 3 ∗ 3 + 1 = 37 4*3*3+1=37 433+1=37
也就是说:
色泽:青绿、乌黑、浅白、其他
根蒂:硬挺、蜷缩、其他
敲声:清脆、混浊、浊响

1.4 归纳偏好


奥卡姆剃刀原理:如果有多个假设与观察一致,则选择最简单的那个。
前提:所有样本独立同分布,也就是说所有问题出现的机会和所有问题同等重要 ⇒ \Rightarrow 没有免费的午餐定理NFL定理
考虑一个二分类的总误差和学习算法的关系时,经过计算,总误差和学习算法无关!

1.5发展历程

1950年图灵测试的文章中就提到了机器学习的可能。
决策树:以信息论为基础,以信息熵的最小化为目标,模拟了人对概念进行判定的树形流程。
二十世纪五十年代:

  • 12
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值