机器学习中理解算法的归纳偏置(偏好)

参考西瓜书对归纳偏置(偏好)的一些总结理解

模型对应假设空间中的 一个假设!

现在,与训练集(样本)一致的假设有多个,那么应该选择哪一个模型(假设)呢?
如果认为相似的样本应有相似的输出,则对应的学习算法可能偏好“平滑”的曲线。

归纳偏好可以 看作学习算法自身在一个庞大的假设空间中对假设进行选择的启发式或者“价值观”。即天涯何处无芳草,却为什么偏偏选择你!!!

那怎样才能引导算法确立“正确的”偏好,找到更好的你呢?
奥卡姆剃刀原则!即 若有多个假设与观察(训练集)一致,则选最简单的那个!简单粗暴有木有!
这里有个问题,简单的定义是什么不是那么好确定的。

但是,就算你确实选择了最简单的假设,没有免费的午餐NFL定理告诉我们,与训练集一致有多个假设,真实的目标函数f是这些假设之一,如果f是 均匀分布,即在这些假设中是等概率的,那么任意的学习算法,它们偏好不同并分别选择了其中一种假设,则他们最终的期望性能相同,与算法无关。

NFL假设了f的均匀分布,而实际问题并非如此。考虑西瓜问题,假设1:好瓜={色泽=*,根蒂=蜷缩,敲声=浊响};假设2:好瓜={色泽=*,根蒂=硬挺,敲声=清脆},他们都符合样本。
从NFL定理可知,这两种假设一样好。然而注意到,{根蒂=蜷缩,敲声=浊响}的好瓜常见,{根蒂=硬挺,敲声=清脆}的好瓜罕见,甚至不存在。 所以归纳偏置会选择假设1的算法自然就优于其他算法。


总结:归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中,这个假设是否成立,即 算法的归纳偏好是否与问题本身匹配,大多数时候直接 决定了算法能否取得好的性能!


 以下是机器学习中常见的归纳偏置列表:
- 最大条件独立性(conditional independence):如果假说能转成贝叶斯模型架构,则试着使用最大化条件独立性。这是用于朴素贝叶斯分类器(Naive Bayes classifier)的偏置。
- 最小交叉验证误差:当试图在假说中做选择时,挑选那个具有最低交叉验证误差的假说,虽然交叉验证看起来可能无关偏置,但天下没有免费的午餐理论显示交叉验证已是偏置的。
- 最大边界:当要在两个类别间画一道分界线时,试图去最大化边界的宽度。这是用于 支持向量机的偏置。这个假设是不同的类别是由宽界线来区分。
- 最小描述长度(Minimum description length):当构成一个假设时,试图去最小化其假设的描述长度。假设越简单,越可能为真的。见奥卡姆剃刀。
- 最少特征数(Minimum features):除非有充分的证据显示一个特征是有效用的,否则它应当被删除。这是特征选择(feature selection)算法背后所使用的假设。
- 最近邻居:假设在特征空间(feature space)中一小区域内大部分的样本是同属一类。给一个未知类别的样本,猜测它与它最紧接的大部分邻居是同属一类。这是用于最近邻居法的偏置。这个假设是相近的样本应倾向同属于一类别。 K紧邻





  • 7
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值