感谢关注天善智能,走好数据之路↑↑↑
欢迎关注天善智能,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习,问答、求职一站式搞定!
本文作者:天善智能社区专家 胡晨川
天善智能社区地址:https://www.hellobi.com/
当拿到一个数据集时,你通常会怎么做?你脑子里好不容易蹦出的那个答案正确吗?这个问题或许能让不少人尴尬。我们循序渐进地来回答这个问题。我们将遵循这样的顺序:数据源质量→数据类型→数据集质量→平均水平→数据分布→量变关系→多维交叉。通过这个系列的5篇内容,我希望你拿到任何数据集的时候都不蒙圈,都能有条不紊地开始工作。
图4- 14:数据认知的一般流程
仔细审核数据源的质量
无数次血的教训告诉我,在拿到数据集后,花再多的精力去审核数据源的质量都不为过。数据源,分为两部分:一部分是数据库中的表,包括你自己取数的表和别人提供的数据的来源表;另一部分是取数代码,一般是SQL代码。
对于取数来源的表,我们一定要不厌其烦地明确如下几个问题:
1.表中的字段有没有在近期改动?做了什么样的改动?
2.表中的字段是不是名副其实的字段?
3.该表谁负责维护?有没有定期维护?
4.该表是否是中间表?它的字段内容是从哪里来的?
5.该表是以什么样的频率刷新数据?
我相信,为了保障数据源的质量,这5个问题是不够的,你一定还会碰到各种各样匪夷所思的错误。只是希望,我的提醒能都让大家少踩坑。尤其在互联网公司,数据质量真的是老大难的问题。
尤其需要警惕的是数据仓库中的中间表,即由其他表合成而来的表。这类表的质量往往很难保证。一方面,这些表有可能是某个短期需求的产物,做完后没有人维护;另一方面,中间表之间往往存在多层的引用,即某张中间表中某个字段的来源是另一张中间表,甚至出现交叉引用&