西瓜书机器学习笔记(一)

记录学习机器学习的过程,方便自己以后查阅;

一.机器学习

机器学习是一门致力研究如何通过计算的手段,利用经验来改善系统自身的性能的学科;在计算机系统中,“”经验通常以“数据”形式存在,因此,机器学习所研究的主要内容是关于在计算机上从数据中产生“模型”的算法,即“学习算法”(learning algorithm).通过经验数据可以基于数据产生模型.在面对新的数据时,可以提供相应的判断.

二.一些概念知识

  • 用来训练模型的数据集叫做训练集,用来测试模型性能的数据集叫测试集或验证集.但是可能存在一个和训练集一致的“假设集合“,这个集合被称为”版本空间“.
  • 通过模型学习数据所产生的算法,本身具有”偏好“.
  • ”奥卡姆剃刀“是一种常用的自研科学研究的原则,若有多个假设与观察一致,则选择最简单的那个;
  • “没有免费的午餐”定理(No Free Lunch Theorem,简称NFL),对于一个学习算法a而言,若它在某些问题上比学习算法b好,则必然存在另一些问题,在那里b比a好.这个结论对任何算法成立.

NFL定理有一个重要的前提,所有“问题”出现的机会相同、或所有问题同等重要;但是实际情况并不是这样的,很多时候,我们只关注自己正在试图解决的问题(例如某个具体应用任务),希望为它找一个解决方案,至于这个方案在别的问题、甚至相似的问题上是否为好方案,我们并不关心.

三.关于模型的评估方法

  • 留出法
    取样:分层取样,保证各类样本中的比例相同;
    1000个样本中抽T个为训练集,S个为测试集,样本中有500个正例,500个反例.则抽取之后
    T中有350个正例,350个反例
    S中150个正例,150个反例
    常见的取值划分范围为2/3 ~ 4/5
    最后要进行若干次划分,用若干次的
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值