数仓建设前期的准备工作(二)

对于数据资产以及需求进行盘点:

        数仓调研的前期,需要对现在企业的数据基础、硬件基础做充分的了解,通过现有的基础条件确保能实现哪些需求,需求需要提前采集并做大体的评估,不能把大数据所能实现的东西说的过于笼统而导致脱离实际。

        很多企业积攒了不少问题,例如系统很慢、接口查不动、很多业务流程需用人工处理比较浪费人力,这种问题适合移交给数据部门。数仓调研期还可以去其它业务线、其他部门“串门”收集这部分需求,了解他们的业务痛点,他们期望在哪些流程上去做自动化提高运营效率,棘手的技术问题能否联合it部进行解决,清楚能对他们提供哪些帮助。

       数据开发要对公司积攒下来的数据要在大体上知道怎么用,下游有哪些用户。尽可能的了解公司有哪些数据,有哪些数据源头,数据量情况,更新机制,数据是否结构化,是通过接口调还是有权限能直连,数据能否持续稳定供应,这个需要和业务线负责人,后端同事,以及产品开发进行足够的沟通。

一般数据源头有:

1.    自研系统的数据库,消息中间件,机器上的日志文件(埋点日志,服务日志),对于系统内部的数据是比较好处理的,常见的datax, sqoop,kettle去定时获取离线数据,Cdc工具例如canal,flinkcdc去承担获取实时数据的任务。

2.    分散在公司其他部门的线下数据和部门级别的文件系统,数据比较分散,考虑能否尽可能的去自动化实现这个过程,以及权衡效益和成本。
3.    外部供应商、外部销售平台等提供的接口(一般按流量计费),外部规定的申请流程进行授权申请,基本是能持续稳定的供数的
4.    爬虫外部数据等,依赖的第三方系统不对某个部分提供数据,或者有特殊的外部数据需求需借助爬虫工具进行采集,这也是补全数据一种比较常见的方式

初步探索
        如果前期数仓调研,时间不足以对公司的数据资产,各部门痛点做盘点,或者有问题亟待解决,可以通过先进行一两个大型项目来驱动这一阶段的建设工作,让很大一部分基础数据沉淀到数仓,后续数据的采集和数据治理让一小部分人去跟进。数据积累一段时间就可以交付相应的报表和数据可视化应用了。当然,这种方式面临的后果就是需要后期需要进行不少调整,成本上会造成相应浪费。

        如果前期预留的时间充足,在数据资产盘点的足够详细下,可以根据未来入仓的数据,绘制一些数据模型,在后期的项目建设过程中,让其数据复用性提升,节约不少人力成本。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值