《数据挖掘导论》学习笔记

写在前面:粗体字为书中定义,红色字体为笔者认为的重点词。


【第一章:绪论】

1.数据挖掘:在大型数据存储库中,自动地发现有用信息的过程。

2.数据预处理步骤:融合来自多个数据源的数据 ,清洗数据以及消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。

3.数据挖掘要解决的问题:可伸缩,高维性,异种数据和复杂数据,数据的所有权和分布,非传统的分析。

4.数据挖掘任务:预测任务,描述任务。

四种主要数据挖掘任务:

(1)预测建模,有两类:分类,用于预测离散目标;回归,用于预测连续目标

(2)关联分析

(3)聚类分析

(4)异常检测


【第二章:数据】

(一)属性与度量

1.属性:是对象的性质或特性,它因对象而异,或随时间而变化。

2.测量标度:是将数值或符号值与对象的属性相关联的规则(函数)。

3.属性的不同类型:

(1)标称,描述:标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息区分对象。

(2)序数:序数属性的值提供足够的信息确定对象的序。

(3)区间:对于区间属性,值之间的差是有意义的,即存在测量单位。

(4)比率:对于比率变量,差和比率都是有意义的。

属性类型的定义是累积的。(1)(2)统称分类的或定性的属性,(3)(4)统称定量的或数值的属性。注意:定量属性可以是整数值或连续值。

4.非对称的属性:只有非零值才重要的二元属性是非对称的二元属性。这类属性对于关联分析特别重要。

(二)数据集的类型

1.数据集的一般特性:纬度,稀疏性,分辨率

2.基于图形的数据:带有对象之间联系的数据,具有图形对象的数据

3.有序数据:时序数据,序列数据,时间序列数据,空间数据



  • 1
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值