机器学习基础-假设空间、样本空间与归纳偏置

在进入正题前先说一说函数,在陶哲轩所著的实分析集合论章节中定义:函数是从定义域A到值域B的映射,即对于A中的每个值B中都有唯一的值对应。假设定义域A中元素个数为X,值域B中元素个数为Y,那么产生函数个数为fe3beb5ff8f7b84c4cbe5277c7e7fc60cf1.jpg个。假设A={1,2} ,B={3,4}则可能产生的函数有:

1、1->3,2->3

2、1->3,2->4

3、1->4,2->4

4、1->4,2->3

这样4个。如果说定义域和值域的元素很多甚至是实数集,那么可能产生的函数集合大小就是天文数字甚至是无穷大了!

机器学习中的本质任务是根据提供的数据拟合出一个模型进行预测,这个模型本质上就是一个函数,拟合模型的过程实际也是寻找函数的过程,因此假设空间实际上就是模型空间本质上是函数集合。

样本空间是指能够拟合训练数据的模型集合(函数集合),以上例为基础,假设给定x=1,y=3,那么能够拟合该数据的有1和2两个函数,显然样本空间由于训练数据的引入是包含于假设空间的,但是样本空间的大小同样可能无穷大,为了说明该问题引用周志华的西瓜书插图:

c15e80e75089ae234f3a570ceafa08f1bff.jpg

现在将定义域和值域放到实数集上,能够拟合图中6个数据点的曲线理论上有无穷个,但我们必须选择其中一个,根据奥卡姆剃刀原则(如果有多个假设与观察一致选择最简单的那个),由此我们自然认为平滑的A曲线比B曲线更加简单而选择A,这个过程叫做归纳偏置。

 

转载于:https://my.oschina.net/u/1268334/blog/3015215

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值