西瓜书学习笔记(第一章)

第一章 绪论

1.2 基本术语

数据集 data set 实例/样本 instance/sample 属性/特征 attribute/feature
在这里插入图片描述
在这里插入图片描述
维数 dimension 假设 hypothesis 训练集 training set “真实” ground-truth
学习器 learner 预测 prediction 标记 label
监督学习 supervised learning 无监督学习 unsupervised learning
分类 classification 回归regression 聚类 clustering 二分类 binary classification
簇 cluster 泛化 generalization 正类 positive class 反类 negative class
独立同分布 independent and identically distributed (简称i.i.d.)

1.3 假设空间

机器学习算法从数据中学得模型的过程称为学习/训练,学得的模型对应了关于数据的某种潜在规律,有时候也称模型为假设.
例如,我们从对于西瓜的训练集(存在三个属性:色泽 根蒂 敲声)中得出了一个好瓜的假设: 好瓜<---->(色泽=青绿) && (根蒂=蜷缩) && (敲声=浊响),但是事实是,有时候我们从训练集中得出的假设不只有一个,假设我们也可以得出:好瓜<---->(色泽=青绿) && (根蒂=蜷缩) && (敲声=沉闷),这些所有可能得到的假设,即好瓜<---->(色泽=?) && (根蒂=?) && (敲声=?)称为假设空间 ,我们从训练集中得出的所有假设的集合称为版本空间.

1.4 归纳偏好

正如上述所言,我们从训练集中得到的假设有时候不只有一个,即有多个与训练集一致的假设,我们需要让机器学习算法具有某种"偏好",来确定一种假设,这种机器学习算法在学习过程中对某种类型假设的偏好,称为"归纳偏好"/“偏好”,算法的归纳偏好是否与问题本身相匹配,大多数时候直接决定了算法能否取得好的性能.
有一些一般性的原则来引导算法确立"正确的"偏好:如奥卡姆剃刀原则(若有多个假设与观察一致,则选最简单地那个),多释原则(主张保持与经验观察一致的所有假设).

另外,作者提到对于一个学习算法a,若他在某个问题上比学习算法b好,则必然存在另一些问题,在那里b比a好,这适用于所有的算法.
“没有免费午餐”定理(NFL),在没有给定具体问题的情况下,或者说面对的是所有问题的情况下,没有一种算法能说得上比另一种算法好.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值