《数据挖掘 实用机器学习工具与技术》读书笔记 第1章-第3章

第一章 绪论

 

机器学习的定义:

机器学习是从大量的数据中自动或半自动地寻找模式的过程,而且这个模式必须是有用的。

我们可以用同样的方法为学习建立一个可操作的定义:

当事务以令其自身在将来表现更好为标准来改变其行为时,它学到了东西。

学习意味着思考和目的。

 

在机器学习领域,一个永恒的成功的研究过程是以压缩一个海量数据库开始的。

 

数据挖掘的应用领域:web挖掘(PageRank算法)、包含评判的决策、图像筛选、负载预测、诊断、市场和销售等。

 

第二章 输入:概念、实例和属性

 

在机器学习中,输入采用概念、实例和属性的形式。

 

机器学习以实例集的形式呈现给学习者。

 

数据挖掘领域存在4种不同的学习方式:

1. 分类学习:用一个已分类的样本集来表示学习方案,并希望从这个样本集中学习对未来样本进行分类的方法。

2. 关联学习:寻找任何特性之间的关联,而不仅仅是为了预测一个特定的类值。

3. 聚类:寻找能够组合在一起的样本,并据此分组。

4. 数值预测:预测出的结论不是一个离散类而是一个数值量。

数值预测是分类学习的一种变体,只不过结论是一个数值而不是分类。

 

第三章 输出:知识表达

 

1.   - 与输入相同的,最简单最基本的方法。

2. 线性模型 - 其输出仅仅是属性值的总和,当然若属性值各有权重,则要加权求和。这里,输入和输出的属性值都是数值型。

3. - 一个独立实例集学习的“分治”方法,自然得到一个称为决策树的表达形式。

4. 规则 - 一个规则的前件或者前提条件是一系列的测试,就像在决策树节点上的测试,而后件或者结论则适合于规则所覆盖实例的一个或多个分裂,或者给出实例在所有类上的概率分布。

分类规则

关联规则(能够预测任何属性而不仅仅是类,也能预测属性的组合)

包含例外的规则

基于实例的表达:在遇到一个新的实例时,就会在记忆中找出与之最相似的一个训练实例。唯一的问题是如何理解“ 相似 ”。这种直接在样本上工作,而不是建立规则,这就是基于实例的学习。基于实例的学习方法和其他已介绍的学习方法的不同之处是“学习”发生的时间不同,基于实例的学习是懒惰的。在基于实例的学习中,使用一种距离度量将每个新实例与现有的实例进行比较,利用最接近的现存实例赋予新实例类别,这称为最近邻分类方法

基于实例的表达方式有一个明显的弱点,就是它不能对所学到的(知识)给出一个清晰的数据结构。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值