脏数据

从广义上看。 脏数据 是指没有进行过 数据 预处理而直接接收到的、处于原始状态的数据。
从狭义上看,是不符合研究要求,以及不可以对其直接进行对应的数据分析。
脏数据根据不同的分析目的有不同的定义。如在常见的 数据挖掘 工作中。脏数据是指不完整、含噪声、不一致的数据;而在 问卷 分析中,脏数据则是指不符合问卷要求的数据。

开发中:
脏数据是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。

在数据库技术中,脏数据在暂时更新( 脏读)中产生。

事务A更新了某个数据项X,可是因为某种原因。事务A出现了问题。于是要把A回滚。

可是在回滚之前。还有一个事务B读取了数据项X的值(A更新后),A回滚了事务,数据项恢复了原值。事务B读取的就是数据项X的就是一个“暂时”的值,就是脏数据。

通俗的讲,当一个事务正在訪问数据,而且对数据进行了改动。而这样的改动还没有提交到数据库中,这时。另外一个事务也訪问这个数据。然后使用了这个数据。由于这个数据是还没有提交的数据,那么另外一个事务读到的这个数据是脏数据,根据脏数据所做的操作可能是不对的。

此文加深理解,仅为记录所用。

參考:

版权声明:本文博主原创文章,博客,未经同意不得转载。

转载于:https://www.cnblogs.com/blfshiye/p/4795779.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
脏数据是指在数据集中存在各种问题或错误的数据。这些错误可能是由于人为错误、测量误差、设备故障、数据存储损坏等原因导致的。脏数据的存在给数据分析和数据挖掘带来了很大的困难,因为它们会对结果产生误导或扭曲。 脏数据的种类多样,包括缺失值、重复值、异常值和不一致值等。缺失值是指数据集中某些变量或观察值的数值信息缺失;重复值是指数据集中存在相同的数据记录;异常值是指数据集中某些数值与其他数值明显不符合;不一致值是指数据集中不符合逻辑或规则的数值。 脏数据的存在会导致数据分析的结果不准确或不可靠。为了解决脏数据问题,我们可以采取以下措施: 1. 数据清洗:对数据进行清洗,包括去除缺失值、重复值、异常值和不一致值。可以使用统计方法或规则来识别和处理这些问题。 2. 数据验证:在进行数据输入和采集时,要对数据进行验证,确保数据的准确性和完整性。 3. 数据规范化:对数据进行规范化处理,统一数据的格式和结构,避免数据的混乱和冲突。 4. 数据监控:定期对数据进行监控和审查,及时发现和纠正脏数据问题。 5. 数据培训:提高数据使用和分析的人员的数据素养和意识,加强数据质量管理的重要性。 总之,脏数据是数据分析中不可避免的问题,但我们可以采取合适的方法和策略来解决或减少脏数据带来的影响,从而提高数据的可靠性和可用性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值