机器学习（西瓜书）第一章学习笔记

最新推荐文章于 2023-01-17 23:02:32 发布

Philia_YF

最新推荐文章于 2023-01-17 23:02:32 发布

阅读量414

点赞数 1

分类专栏：机器学习文章标签：西瓜书

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/FronidaY/article/details/103777217

版权

机器学习专栏收录该内容

9 篇文章 3 订阅

订阅专栏

Part1 名词解释

训练过程中使用的数据集称为训练集，其中的每一个样本称为训练样本。

测试：学得模型后，使用该模型进行预测的过程，被预测的样本成为测试样本

假设：学得模型对应于数据的某种潜在规律，这种潜在的规律自身成为真相或真实

学习的过程就是为了找出或逼近真相，将这种模型成为学习器

样例：拥有标记信息的示例

分类：预测的是离散值，则称分类

回归：预测的是连续纸，则称回归

根据训练数据是否有标记信息分为监督学习（分类和回归）、无监督学习（聚类）

泛化：学得的模型适用于新样本的能力

假设空间之科学推理的两大基本手段——归纳与演绎

归纳：从特殊到一般的泛化，即从具体试试归纳到一般性规律

演绎：从一般到特殊的特化，即从基本原理推演到具体状况

归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好

没有免费的午餐定理：

NLF讲的是在不考虑具体问题的情况下，没有任何一个算法比另一个算法更优，甚至没有胡乱猜测更好。不存在一个与具体应用无关的，普遍适用的“最优分类器”；学习算法必须要作出一个与问题领域有关的“假设”，分类器必须与问题域相适应。但是，NFL定理的前提是，所有问题出现的机会相等、或所有问题都是同等重要。但是现实中，我们往往会得到特定的数据，特定的分布，解决特定的问题，所以我们只需要解决自己关注的问题，而不需要考虑这个模型是否很好的解决其他的问题。只有对于特定的问题，我们比较不同模型的才有意义。不仅是机器学习，我们在做其他算法的时候也是这样，如果不考虑实际解决的问题，很难说算法的优劣。

Note：在进行样本训练时，我们通常假设所有的样本独立同分布。

机器学习的应用：

在总统候选人第一次辩论后，分析出哪些选民将倒戈，为每一位选民找出一个最能说服他的理由

精准定位不同选民群体，建议购买冷门广告时段，广告资金效率比2008年提高18%

向奥巴马推荐，精选后期应当在什么地方展开活动--哪里有更多争取对象

借助模型帮助奥巴马筹集到创纪录的10亿美元

在生物信息、web搜索、入侵检测、汽车自动驾驶、火星机器人、决策助手等方面都有应用

例题：简述机器学习能在互联网搜索中的哪些环节起什么作用？

1.在向搜索引擎提交信息的阶段，能够从提交文本中进行信息提取，进行语义分析。

2.在搜索引擎进行信息匹配的阶段，能够提高问题与各个信息的匹配程度。

3.在向用户展示搜索结果的阶段，能够根据用户对结果感兴趣的程度进行排序。

习题1.3:若数据包含噪声，则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下，试设计一种归纳偏好用于假设选择。

通常认为两个数据的属性越相近，则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类，则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据，留下的数据就是没误差的数据，但是可能会丢失部分信息

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习（西瓜书）第一章学习笔记

Part1 名词解释训练过程中使用的数据集称为训练集，其中的每一个样本称为训练样本。测试：学得模型后，使用该模型进行预测的过程，被预测的样本成为测试样本假设：学得模型对应于数据的某种潜在规律，这种潜在的规律自身成为真相或真实学习的过程就是为了找出或逼近真相，将这种模型成为学习器样例：拥有标记信息的示例分类：预测的是离散值，则称分类回归：预测的是连续纸，则称回归...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。