周志华西瓜书学习笔记(一)

最新推荐文章于 2024-04-11 20:00:49 发布

Math_is_hard.

最新推荐文章于 2024-04-11 20:00:49 发布

阅读量816

点赞数

分类专栏：周志华（西瓜书）学习笔记文章标签：神经网络机器学习深度学习算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Math_is_hard/article/details/111616373

版权

周志华（西瓜书）学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

周志华西瓜书学习笔记

第一章绪论

数据处理分为三个阶段：收集，分析，预测。

一、基本概念

机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。

Mitchell给出的更形式化的定义为：假设用P来评估计算机程序在某任务T上的性能，若一个程序通过利用经验E在T中获得了性能改善，我们就可以说T和P，该程序对E进行了学习。

（一）泛化（generalization）

学得的模型适用于新样本的能力，称之为泛化能力。具有强泛化能力的模型能够更好地使用于整个样本空间。

（二）独立同分布（i.i.d）

通常假设样本空间的全体样本服从一个未知的分布（distribution），我们获得的每一个样本都是从整个样本空间中采样获得的，即“独立同分布”（independent and identically distributed, i.i.d)

二、假设空间大小计算

以文中的西瓜为例，求出假设空间：

这里我们的假设空间由形如“（色泽=？）^ （根蒂=?）^（敲声=？）”的可能取值所形成的假设组成。

色泽有“青绿”和“乌黑”两种取值，还需考虑无论色泽取什么值都合适的情况，用通配符（*）表示。色泽属性共三种取值；

根蒂有“蜷缩”、“硬挺”和“稍蜷”三种取值，同理再加通配符（*）表示，根蒂属性共四种取值；

敲声有“浊响”、“清脆”和“沉闷”三种取值，同理再加通配符（*）表示，敲声属性共四种取值；

还有一种假设组成——可能"好瓜”这个概念就不成立，我们用∅表示这种假设。

那么，所对应的假设组成的个数为：3x4x4+1=49. 即表1所对应的假设空间的规模大小为49. 其中：

具体假设： 2x3x3=18 种

一个通配符：2x3+3x3+2x3=21种

两个通配符：2+3+3=8 种

三个通配符：1种

概念不存在：1种

三、归纳偏好（inductive bias）

机器学习中对于某种假设类型具有特殊的偏好，成为归纳偏好（inductive bias），任何一个有效的机器学习算法必然都有其归纳偏好，否则无法产生确定的有意义的学习效果，会被“等效”的各个假设所迷惑。

（一）归纳原则——奥卡姆剃刀（Occam’s razor）

Occam’s razor是自然科学研究中最基本的原则，“若有多个假设与观察结果意志，则选用最简单的那个”，更平滑意味着更简单。

（二）没有免费的午餐定理——NFL（No Free Lunch）定理

对于某一个算法A，在一些问题上的表现优于算法B，必然存在某些问题的表现劣于算法B。

NFL定理出现前提：所有问题出现机会相同，所有问题同等重要。
NFL定理的意义是：脱离了问题本身，讨论哪种算法更好将没有任何意义。若考虑所有潜在问题，所有算法一样好，要谈论算法的优劣，必须要针对具体的学习问题。

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
周志华西瓜书学习笔记(一)

周志华西瓜书学习笔记第一章绪论数据处理分为三个阶段：收集，分析，预测。一、基本概念机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。Mitchell给出的更形式化的定义为：假设用P来评估计算机程序在某任务T上的性能，若一个程序通过利用经验E在T中获得了性能改善，我们就可以说T和P，该程序对E进行了学习。（一）泛化（generalization）学得的模型适用于新样本的能力，称之为泛化能力。具有强泛化能力的模型能够更好地使用于整个样本空间。（二）独立同分布（i.i.d）通
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。