数据挖掘--数据篇(学习心得)

本文探讨了数据挖掘的基础知识,包括数据类型、数据集的分类、数据质量和预处理步骤。数据类型分为标称、序数、区间和比率属性;数据集有记录数据、基于图形的数据和有序数据等类型。数据质量关注测量误差、数据收集问题、时效性和相关性。预处理涵盖聚集、抽样、维归约、特征选择、离散化和变量变换,以提高分析效率和准确性。
摘要由CSDN通过智能技术生成

 数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合,在一个大型数据库中,自动的发现有用信息的过程,还具有预测未来观测结果的能力。数据挖掘的对象是数据,所以离开数据,挖掘无从谈起。现将我学习《数据挖掘导论》的笔记写出来,巩固一下知识。

一、数据类型。

数据对象有其它的名字,如记录,点,向量,模式,事件,案例,样本,观测或实体

1、属性与度量

属性是对象的性质或特性,因对象而异,或随时间而变化。

测量标度是将数值或符号与对象的属性相关联的规则。

属性有四种类型:标称、序数、区间、比率。其中标称和序数属性统称分类的或定性的。区间和比率是数值的或定量的。

2、数据集的类型

数据集有三个重要的特性:维度、稀疏性、分辨率。

数据集有以下的类型:

*记录数据,包括:事务数据或购物篮数据、数据矩阵、稀疏数据矩阵。

*基于图形的数据,包括:带有对象之间联系的数据、具有图形对象的数据。

*有序数据,包括:时序数据、序列数据、时间序列数据、空间数据。

二、数据质量

 1。测量和数据收集问题

测量误差和数据收集错误:

噪声和伪像:其中伪像是确定性失真,如一组照片同一地方上的条纹。

精度、偏倚和准确率:精度通常用值集合的标准差度量,而偏倚用值集合的均值与被测量的已知值之间的差度量。

离群点&#

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据出境研究所

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值