[ML]爱的初体验

1. 何为机器学习?
  • 《机器学习》周志华版给出的解释为:研究在计算机中,从数据中产生“模型 (model)”的算法,即“学习算法” (Learning Algorithm). 也可以说机器学习是研究关于“学习算法”的学问。

  • 《机器学习》Tom Mitchell版本给出的公式化解释为: L e a r n i n g = I m p r o v i n g   w i t h   e x p r i e n c e   a t   s o m e   t a s k s Learning = Improving\ with \ exprience \ at \ some\ tasks Learning=Improving with exprience at some tasks
    即在任务T中,根据经验 E 来学习以提升性能度量 P。

2. 归纳 Induction
  • 归纳即 从特殊到一般的“泛化”(generalization)过程,从具体实时归纳出一般规律。比如从一组数 2,4,6,8,10中得出规律都是 偶数。这个“规律”也是机器学习的研究内容,这个学习过程称为 归纳学习 Inductive learning
3. 演绎 deduction
  • 演绎即 从一般到特殊的“特化”(specialization)过程。
4. 概念学习 Concept Learning
  • 狭义的归纳学习要求从训练数据中学得概念,即称为 概念学习。
5. 布尔概念学习 Boolean Concept Learning
  • 即 对“是”与“不是”这样的只有 0/1 结果的目标概念的学习。
    比如学习根据西瓜的色泽、根蒂、敲声来判断一个西瓜是好瓜还是坏瓜。
6. 假设空间 Hypothesis Space

依然西瓜来假设,其中 符号 “?”表示可以为任意值:

色泽 = {青绿, 乌黑, 浅白,?}
根蒂 = {蜷缩, 硬挺,稍蜷, ?}
敲声 = {浊响, 清脆, 沉闷,?}

再考虑或许根本没有“好瓜”这个概念,我们用 ∅ \emptyset 空集来表示。

那么,不同西瓜的类型数有:444+1 = 65种。

那么,包含可能的西瓜类型的集合,我们称之为 假设空间(Hypothesis Space)。

注意:只要包含可能的西瓜类型的集合就可以称为假设空间,不一定非要包含所有可能。

7. 学习看作搜索

书接上例:

我们已经知道了世界上有65种类型的瓜,我们最初的任务是找出其中的好瓜,现在任务变成了从这65种类型中搜索出符合(fit)好瓜条件的类型。

搜索的策略有很多,关于这个问题,请参见第二部分。

8. 版本空间 Version Space

书接上问:

第6问说到一共有65种西瓜类型,假设空间中的一部分类型可能与训练集给出的所有西瓜类型相同,那么这部分类型的集合,我们称之为“版本空间”(Version Space)。

例如,只有一条数据的训练集:{[青绿,蜷缩,浊响]}是好瓜,假设空间的假设为{[青绿,蜷缩,浊响], [乌黑,硬挺,清脆]},那么版本空间就是假设空间的子集:{[青绿,蜷缩,浊响]}

百度百科的解释:概念学习中与已知数据集一致的所有假设(hypothesis)的子集集合

关于版本空间例子的详细解释:西瓜书(周志华):什么是版本空间以及如何求取版本空间

9. 归纳偏好 Inductive Bias

如果版本空间中有多个不同的假设,均与训练集一致,但同样的输入数据可能导致不同的输出结果 0/1。我们如何判断使用哪个假设更好呢?

事实上每个模型都必定有各自的偏好来判断瓜的好坏。这时候,选择哪个模型,就需要看实际的任务需求来决定。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是土豆大叔啊!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值