数据相关知识总结

最新推荐文章于 2024-05-07 10:13:44 发布

芒骁

最新推荐文章于 2024-05-07 10:13:44 发布

阅读量1.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44587855/article/details/103655538

版权

数据挖掘专栏收录该内容

19 篇文章 10 订阅

订阅专栏

数据挖掘中的数据我们不叫它数据，而是把它叫做数据对象和数据集，联想一下你的购物单，数据对象就是一行一行的物品信息，而所有行数据对象构成数据集。

数据对象具有价值，这里的数据对象通常是使用多个属性来描述的数据，就像一个人有四肢和头组成一样。属性是数据存在的依托。

有了属性，属性天生多样，所以为了方便需要对其划分类型：标称、序数、区间、比率（按照相异性、序、加法、乘法是否有意义区分，当然划分的方法也不只有这一种，还有离散与连续，对称与非对称等等）。前两个（标称、序数）统称为定性的属性或分类的，而后两个称为定量的或数值的。

数据对象组成数据集，数据集同样有它的属性（我们不叫它属性，叫它特性），它具有维度、稀疏性、分辨率三者。

数据集也有它的类型，当然它是由数据对象组成，所以它的类型与数据对象有关：

如果数据对象是一条条记录，每个记录包含固定的属性集，数据集是记录的集合，这就是记录数据。
如果数据对象具有结构，这样的对象用图表示，则就是基于图形的数据。
如果数据对象的属性，具有涉及空间或时间序的联系，则可以成为有序数据。

数据作为构造模型的原材料，质量问题必然很关键。
谈到数据质量，就要谈一谈数据可能会有哪些误差，以及如何测量数据的质量。
我们必须要知道，收集数据的过程中会出现问题的环节是很多的

测量时的误差——测量误差
数据收集时的误差——数据收集误差
硬件故障等难以解释导致出现的无意义数据，会干扰数据分析
伪像，确定性的失真

另外还有一些最后显得不一样的数据。

离群点异类，但是有时也是宝藏，具有不同于其他大部分数据对象的数据特征。
遗漏值，与其他数据对象相比遗漏了一个或多个属性。解决方法

删除数据对象或属性，直接删，不废话
估计遗漏值，缝缝补补再用用
在分析时忽略遗漏值，选择性跳过

不一致的值，很突兀，明显违背常理。
重复的值。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据相关知识总结

数据挖掘中的数据我们不叫它数据，而是把它叫做数据对象和数据集，联想一下你的购物单，数据对象就是一行一行的物品信息，而所有行数据对象构成数据集。数据对象具有价值，这里的数据对象通常是使用多个属性来描述的数据，就像一个人有四肢和头组成一样。属性是数据存在的依托。有了属性，属性天生多样，所以为了方便需要对其划分类型：标称、序数、区间、比率（按照相异性、序、加法、乘法是否有意义区分，当然划分的方法也不...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。