《数据挖掘实用机器学习工具与技术》读书笔记第1章-第3章

最新推荐文章于 2023-07-10 17:14:49 发布

人间折耳根

最新推荐文章于 2023-07-10 17:14:49 发布

阅读量251

点赞数

分类专栏：数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43596503/article/details/109643591

版权

数据专栏收录该内容

6 篇文章 0 订阅

订阅专栏

第一章绪论

机器学习的定义：

机器学习是从大量的数据中自动或半自动地寻找模式的过程，而且这个模式必须是有用的。

我们可以用同样的方法为学习建立一个可操作的定义：

当事务以令其自身在将来表现更好为标准来改变其行为时，它学到了东西。

学习意味着思考和目的。

在机器学习领域，一个永恒的成功的研究过程是以压缩一个海量数据库开始的。

数据挖掘的应用领域：web挖掘（PageRank算法）、包含评判的决策、图像筛选、负载预测、诊断、市场和销售等。

第二章输入：概念、实例和属性

在机器学习中，输入采用概念、实例和属性的形式。

机器学习以实例集的形式呈现给学习者。

数据挖掘领域存在4种不同的学习方式：

1. 分类学习：用一个已分类的样本集来表示学习方案，并希望从这个样本集中学习对未来样本进行分类的方法。

2. 关联学习：寻找任何特性之间的关联，而不仅仅是为了预测一个特定的类值。

3. 聚类：寻找能够组合在一起的样本，并据此分组。

4. 数值预测：预测出的结论不是一个离散类而是一个数值量。

数值预测是分类学习的一种变体，只不过结论是一个数值而不是分类。

第三章输出：知识表达

1. 表 - 与输入相同的，最简单最基本的方法。

2. 线性模型 - 其输出仅仅是属性值的总和，当然若属性值各有权重，则要加权求和。这里，输入和输出的属性值都是数值型。

3. 树 - 一个独立实例集学习的“分治”方法，自然得到一个称为决策树的表达形式。

4. 规则 - 一个规则的前件或者前提条件是一系列的测试，就像在决策树节点上的测试，而后件或者结论则适合于规则所覆盖实例的一个或多个分裂，或者给出实例在所有类上的概率分布。

分类规则

关联规则（能够预测任何属性而不仅仅是类，也能预测属性的组合）

包含例外的规则

基于实例的表达：在遇到一个新的实例时，就会在记忆中找出与之最相似的一个训练实例。唯一的问题是如何理解“ 相似 ”。这种直接在样本上工作，而不是建立规则，这就是基于实例的学习。基于实例的学习方法和其他已介绍的学习方法的不同之处是“学习”发生的时间不同，基于实例的学习是懒惰的。在基于实例的学习中，使用一种距离度量将每个新实例与现有的实例进行比较，利用最接近的现存实例赋予新实例类别，这称为最近邻分类方法。

基于实例的表达方式有一个明显的弱点，就是它不能对所学到的（知识）给出一个清晰的数据结构。

人间折耳根

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。