3.4 数据预处理（一） - 数据集成（Data Integration）

最新推荐文章于 2025-03-17 18:44:31 发布

进击的橘子猫

最新推荐文章于 2025-03-17 18:44:31 发布

阅读量1.8w

点赞数 6

分类专栏：数据分析与挖掘框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Orange_Spotty_Cat/article/details/81335390

版权

数据集成是将来自不同源的数据整合的过程，面临字段意义、结构、冗余和重复问题。解决方法包括业务调研以理解字段意义，统一字段命名规则，明确数据结构，检测字段相关性，以及处理数据重复和冲突。数据集成对于保证数据质量和提高分析效率至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

数据集成（Data Integration）是一个数据整合的过程。通过综合各数据源，将拥有不同结构、不同属性的数据整合归纳在一起，就是数据集成。由于不同的数据源定义属性时命名规则不同，存入的数据格式、取值方式、单位都会有不同。因此即便两个值代表的业务意义相同，也不代表存在数据库中的值就是相同的。因此需要数据入库前进行集成，去冗余，保证数据质量。

一句话解释版本：

数据集成是将不同来源的数据整合在一个数据库中的过程。

数据分析与挖掘体系位置

数据集成是数据预处理的环节，所以在数据分析与数据挖掘中的位置如下图所示。

数据集成的难点

数据集成的本质是整合数据源，因此多个数据源中字段的语义差异、结构差异、字段间的关联关系，以及数据的冗余重复，都会是数据集成面临的问题。归纳一下的话，数据集成面临如下几个问题：

字段意义问题

在整合数据源的过程中，很可能出现这些情况：

两个数据源中都有一个字段名字叫“Payment”，但其实一个数据源中记录的是税前的薪水，另一个数据源中是税后的薪水。
两个数据源都有字段记录税前的薪水，但是一个数据源中字段名称为“Payment”，另一个数据源中字段名称为“Salary”。

上面这两种情况是在数据集成中常发生的，造成这个问题的原因在于现实生活中语义的多样性以及公司数据命名的不规范。为了更好的解决这种问题，首先，我们需要在数据集成前，进行业务调研，确认每个字段的实际意义，不要被不规范的命名误导。

其次，我们可以整理一张专门用来记录字段命名规则的表格，使字段、表名、数据库名均能自动生成，并统一命名。一旦发生新的规则，还能对规则表实时更新。

字段结构问题

数据结构问题的产生是数据集成中几乎必然

最低0.47元/天解锁文章

进击的橘子猫

博客等级

码龄7年

47
原创

606
点赞

2913
收藏

738
粉丝

关注

私信

热门文章

分类专栏

最新评论

数据科学猫：数据预处理之数据分箱(Binning)
n5: 非常好的文章。请问分箱之后怎么处理呢？比如等距分箱，得到 df['等距分箱'] 这个新的列后，怎么处理原始的列，然后可以让模型使用啊? 我看到有人会填充原始列所属的箱号，还有说分箱后一个特征变成了多个特征但我不知道怎么操作，还有说要onehot编码，楼主好人能讲讲吗，可能对大佬是不值一提的小问题，但小白往往就差这最后一下导致整个流程跑不起来，多谢！
数据科学猫：数据预处理之数据分箱(Binning)
小白dong: 最后不显示图像是为什么啊？
3.4.2数据标准化（一） - Z-Score标准化
Flynn1392: CSDN是越来越封闭了
4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)
这都啥跟啥: 或者说，文章里出现的混淆矩阵默认一个前提：以猫为例(猪狗同理)，真猫都会被检测为猫猪狗中的一种，并且检测到的假猫只来自猪或者狗。这里忽略了背景问题：一是真猫没有被识别为猫猪狗，而当作背景漏检了；二是背景区域(非猫猪狗)也可能被检测为猫。所以想问一下：当背景作为一个类，而未被标注时，应该怎样计算ACC？
4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)
这都啥跟啥: 请问ACC的定义“分类模型所有判断正确的结果占总观测值的比重”中“观测值”的定义是什么？比如图片中目标检测场景：狗数真实值为10，模型认为有5只狗、2只猫、剩余3只认为不属于已知类别（相当于认为是背景），那这3只计入观测值吗？同理，牛数真实值为10，模型认为有12头牛，其中包含10头牛和2个背景（背景被误检测为牛），那这2个背景计入观测值吗？

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。