快速认知数据的详细步骤（一）

最新推荐文章于 2020-03-30 19:30:40 发布

R3eE9y2OeFcU40

最新推荐文章于 2020-03-30 19:30:40 发布

阅读量137

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/R3eE9y2OeFcU40/article/details/79585555

版权

感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，大数据，数据分析领域的垂直社区，学习，问答、求职一站式搞定！本文作者：天善智能社区专家胡晨川天善智能社区地址：https://www.hellobi.com/当拿到一个数据集时，你通常会怎么做？你脑子里好不容易蹦出的那个答案正确吗？这个问题或许能让不少人尴尬。我们循序渐进地来回答这个问题。我...

摘要由CSDN通过智能技术生成

感谢关注天善智能，走好数据之路↑↑↑

欢迎关注天善智能，我们是专注于商业智能BI，大数据，数据分析领域的垂直社区，学习，问答、求职一站式搞定！

本文作者：天善智能社区专家胡晨川

天善智能社区地址：https://www.hellobi.com/

当拿到一个数据集时，你通常会怎么做？你脑子里好不容易蹦出的那个答案正确吗？这个问题或许能让不少人尴尬。我们循序渐进地来回答这个问题。我们将遵循这样的顺序：数据源质量→数据类型→数据集质量→平均水平→数据分布→量变关系→多维交叉。通过这个系列的5篇内容，我希望你拿到任何数据集的时候都不蒙圈，都能有条不紊地开始工作。

图4- 14：数据认知的一般流程

仔细审核数据源的质量

无数次血的教训告诉我，在拿到数据集后，花再多的精力去审核数据源的质量都不为过。数据源，分为两部分：一部分是数据库中的表，包括你自己取数的表和别人提供的数据的来源表；另一部分是取数代码，一般是SQL代码。

对于取数来源的表，我们一定要不厌其烦地明确如下几个问题：

1．表中的字段有没有在近期改动？做了什么样的改动？

2．表中的字段是不是名副其实的字段？

3．该表谁负责维护？有没有定期维护？

4．该表是否是中间表？它的字段内容是从哪里来的？

5．该表是以什么样的频率刷新数据？

我相信，为了保障数据源的质量，这5个问题是不够的，你一定还会碰到各种各样匪夷所思的错误。只是希望，我的提醒能都让大家少踩坑。尤其在互联网公司，数据质量真的是老大难的问题。

尤其需要警惕的是数据仓库中的中间表，即由其他表合成而来的表。这类表的质量往往很难保证。一方面，这些表有可能是某个短期需求的产物，做完后没有人维护；另一方面，中间表之间往往存在多层的引用，即某张中间表中某个字段的来源是另一张中间表，甚至出现交叉引用&

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
快速认知数据的详细步骤（一）

感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，大数据，数据分析领域的垂直社区，学习，问答、求职一站式搞定！本文作者：天善智能社区专家胡晨川天善智能社区地址：https://www.hellobi.com/当拿到一个数据集时，你通常会怎么做？你脑子里好不容易蹦出的那个答案正确吗？这个问题或许能让不少人尴尬。我们循序渐进地来回答这个问题。我...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。