机器学习(西瓜书)第一章学习笔记

Part1 名词解释

训练过程中使用的数据集称为训练集,其中的每一个样本称为训练样本。

测试:学得模型后,使用该模型进行预测的过程,被预测的样本成为测试样本

假设:学得模型对应于数据的某种潜在规律,这种潜在的规律自身成为真相或真实

学习的过程就是为了找出或逼近真相,将这种模型成为学习器

样例:拥有标记信息的示例

分类:预测的是离散值,则称分类

回归:预测的是连续纸,则称回归

根据训练数据是否有标记信息分为监督学习(分类和回归)、无监督学习(聚类)

泛化:学得的模型适用于新样本的能力

假设空间之科学推理的两大基本手段——归纳与演绎

归纳:从特殊到一般的泛化,即从具体试试归纳到一般性规律

演绎:从一般到特殊的特化,即从基本原理推演到具体状况

归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好

 没有免费的午餐定理:

NLF讲的是在不考虑具体问题的情况下,没有任何一个算法比另一个算法更优,甚至没有胡乱猜测更好。不存在一个与具体应用无关的,普遍适用的“最优分类器”;学习算法必须要作出一个与问题领域有关的“假设”,分类器必须与问题域相适应。但是,NFL定理的前提是,所有问题出现的机会相等、或所有问题都是同等重要。但是现实中,我们往往会得到特定的数据,特定的分布,解决特定的问题,所以我们只需要解决自己关注的问题,而不需要考虑这个模型是否很好的解决其他的问题。只有对于特定的问题,我们比较不同模型的才有意义。不仅是机器学习,我们在做其他算法的时候也是这样,如果不考虑实际解决的问题,很难说算法的优劣。

Note:在进行样本训练时,我们通常假设所有的样本独立同分布

机器学习的应用:

在总统候选人第一次辩论后,分析出哪些选民将倒戈,为每一位选民找出一个最能说服他的理由

精准定位不同选民群体,建议购买冷门广告时段,广告资金效率比2008年提高18%

向奥巴马推荐,精选后期应当在什么地方展开活动--哪里有更多争取对象

借助模型帮助奥巴马筹集到创纪录的10亿美元

在生物信息、web搜索、入侵检测、汽车自动驾驶、火星机器人、决策助手等方面都有应用

 

 例题:简述机器学习能在互联网搜索中的哪些环节起什么作用?

1.在向搜索引擎提交信息的阶段,能够从提交文本中进行信息提取,进行语义分析。

2.在搜索引擎进行信息匹配的阶段,能够提高问题与各个信息的匹配程度。

3.在向用户展示搜索结果的阶段,能够根据用户对结果感兴趣的程度进行排序。

 习题1.3:若数据包含噪声,则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择。

通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息

 

 

 

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值