企业数据管理:从源头到分析的全面指南
1. 数据存储与管理
在企业的数据工作中,数据的存储和维护方式至关重要。企业中的数据往往以多种状态存储和管理。最原始的数据通常从运营系统中提取到一个被称为数据湖(data lake)的存储库中,这里的数据往往未经处理和清理。
这些原始数据的提取工作通常由经验丰富的人员完成,可能涉及 API 查询的编码或通过防火墙设置访问权限。因此,如果企业还没有这些数据提取渠道,可能需要专业人员来协助设置,而这些人员通常在企业的核心部门工作。
数据通常要经过多个清理和处理阶段,以便更易于使用。数据的进一步处理和细化工作更多地由分散的团队而非核心团队完成。不过,大多数数据源的访问创建和管理最初是由核心数据团队负责的。将数据源集中管理是因为这些数据源和系统会被企业内众多人员和团队使用。如果每个团队都创建不同版本的数据源,可能会对相同问题得出不同答案。
对数据源的访问和使用控制被称为数据治理(data governance),包括对数据源的访问控制、更新和删除等任务。随着数据收集和使用的增加,保护消费者数据的法规也越来越多。例如,2016 年生效的欧盟通用数据保护条例(GDPR)包含了许多全球适用的基本原则,如数据主体有权被遗忘并删除其数据、数据使用需符合授权、数据至少保留到满足审计或法律要求的时间等。
如果数据存储不当,基于这些数据的后续工作可能会出错。依据错误数据得出的结论可能导致一系列错误决策,从投资选择到企业的成败都可能受到影响。良好的数据源控制意味着可以信任数据源,并且应清晰记录所有限制或漏洞。然而,对数据源的控制有时会在数据使用和对原始数据源的控制之间引发紧张关系。在许多数据分析项目中,可能需要对原始数据源进行过