机器学习 --《机器学习》(周志华)第一、二章

最新推荐文章于 2024-07-25 16:05:31 发布

小灰机大

最新推荐文章于 2024-07-25 16:05:31 发布

阅读量389

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Zhou_Yulong/article/details/119766837

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

吃瓜笔记(第一、二章)

《机器学习》（周志华）

文章目录

吃瓜笔记(第一、二章)

笔记

通过对大量的对象属性进行分析后得到模型的过程称之为训练
进行科学推理常用方法
- 归纳
  - 从特殊到一般的总结、归纳出一般规律
- 演绎
  - 从一般规律
不同的模型会有不同的归纳偏好，也会得到不同的推演结论
不同的偏好的算法，并非就有一个更好。而是，两者在不同的情况下，都会有自己的优势，更接近事实
合取式、析取式、合取范式、析取范式
- 仅由有限个文字构成的析取式称作“简单析取式”：﹁p ∨ ﹁q p ∨ q
- 仅由有限个文字构成的合取式称作“简单合取式”：﹁p ∧ ﹁q p ∧ q
- 由有限个简单合取式构成的析取式称为析取范式：A = A1 ∨ A2 ∨ A3 ∨ … ∨ An
- 由有限个简单析取式构成的合取式称为合取范式：A = A1 ∧ A2 ∧ A3 ∧ … ∧ An合取式：
在学习器学习过程中，应适当的泛化。过拟合 会使得，把训练样本的“独特”当做所有潜在样本的“普遍”特性，从而使得性能下降,通常因为学习能力太“强”造成。如：选择劳动力，因为选择的训练样本中劳动力，国籍均为中国。那么过拟合将国籍确定，则会使得泛化能力下降，而无法选取符合条件的“外籍”男性作为劳动力，但这显然是违背初衷，初衷为选择合适的男性作为劳动力。欠拟合反之，通常是因为学习能力低下造成。
P 问题、NP 问题
P 问题：能在多项式时间内解决的问题
NP 问题：能在多项式时间内判断正确与否
理想状态下，如果能让 NP=P，那么久能解决过拟合问题
评估泛化误差的常用方法
- 留出法： 数据集一分为二，一部分测试集，一部分为训练集
- 交叉验证法： 数据集分为多个互斥子集。每次剩一个作为测试集，其余均为训练集。而测试集可是是其中的任意一个子集。故，若将数据集分为 k 个子集，则可进行 k 次训练和测试
- 自助法：
  将包含 n 个数据的数据集D，随机取n次，获得数据集D’作为训练集，而将数据集D中 n 次均没有取到过的数据，作为测试集

章节习题

1.1 包含编号为1,4的两个样例，给出相应的样版本空间

序号	色泽	根蒂	敲声	好瓜
1	青绿	蜷缩	浊响	是
4	乌黑	稍蜷	沉闷	否

析：

假设空间：所有可能出现的情况的集合

版本空间：与训练集一致的所有假设所构成的集合

共有三种属性，每种属性有三种情况，分别是：青绿、乌黑以及*（无所谓），故，假设空间空间为，3x3x3=27 种。但符合“好瓜”要求的仅可能是以下七种。

分别是：
(色泽=青绿)∧(根蒂=*)      ∧(敲声=*)
(色泽=*)      ∧(根蒂=蜷缩)∧(敲声=*)
(色泽=*)      ∧(根蒂=*)      ∧(敲声=浊响)
(色泽=青绿)∧(根蒂=蜷缩)∧(敲声=*)
(色泽=青绿)∧(根蒂=*)      ∧(敲声=浊响)
(色泽=*)      ∧(根蒂=蜷缩)∧(敲声=浊响)
(色泽=青绿)∧(根蒂=蜷缩)∧(敲声=浊响)

1.2. 与使用单个合取式来进行假设表示相比，使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间，试估算有多少种可能的假设
题目中三种属性，假设空间为： 3x4x4=48。所以 k 值，最大取值为 48。
占坑，回补

1.3 若数据包含噪声，则假设空间有可能不存在与所有训练样本都一致的假设，在此情况下，试设计一种归纳偏好用于假设选择
析:
噪声数据：噪声数据（Noisy Data）就是无意义的数据，这个词通常作为损坏数据的同义词使用
最暴力的方法，就是将属性值相同，但标记结果不同的任去掉其中一个

1.5 试述机器学习能在互联网搜索中哪些环节起到什么作用

在输入阶段:
- 分析用户的文本语义
- 可以根据用户的输入文本给于相应的联想
在搜索阶段：
- 提高关键字匹配程度
- 根于用户的搜索习惯提高内容的适配度
在展示结果阶段：
- 对返回结果进行排序，优先展示

延伸思考

机器学习必然是一个从实践 -> 理论(模型预测) -> 实践的一个过程。从实际中获取数据，对数学进行分析、建模，不断训练，最终进行预测在实际生活中运用，造福人类

小灰机大

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习 --《机器学习》(周志华)第一、二章

吃瓜笔记(第一、二章)《机器学习》（周志华）笔记通过对大量的对象属性进行分析后得到模型的过程称之为训练进行科学推理常用方法归纳从特殊到一般的总结、归纳出一般规律演绎从一般规律不同的模型会有不同的归纳偏好，也会得到不同的推演结论不同的偏好的算法，并非就有一个更好。而是，两者在不同的情况下，都会有自己的优势，更接近事实合取式、析取式、合取范式、析取范式仅由有限个文字构成的析取式称作“简单析取式”：﹁p ∨ ﹁q p ∨ q仅由有限个文字构成的
复制链接

扫一扫

专栏目录