大数据开发哪些事
文章平均质量分 71
很多数仓开发人员,对数仓建设的整个生命周期没有一个全面的认识。可能是因为工作经验尚浅,一般都是从事数仓建设的某个环节,例如只负责采集,或者只负责ODS落仓等等。这就限制了你的视野,拖慢了你前进的步伐,我们不能学盲人摸象、管中窥豹。我会通过本系列文章,快速代你了解数仓建设的整个过程。
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
十五楼亮哥
肯与邻翁相对饮,隔篱呼取尽馀杯。
展开
-
第六章:数据治理
1、数据治理的概念数据治理并不是一个新生事物,可以说,有数据的地方就存在数据治理,只不过随着数据应用的迅猛发展将它提到了一个高度,作为一个独立的研究领域。数据治理并没有标准的、严格的定义,概况地讲所有为提高数据质量而展开的业务、技术和管理活动都属于数据治理范畴。2、数据治理的目标Ensure metadata management and data documentation。确保元数据管理和数据文档Simplify data access and facilitate data usage a原创 2021-01-29 14:04:40 · 705 阅读 · 0 评论 -
第五章 节点开发
1、DDL建表语句表和字段必须有描述信息drop表前面加上IF EXISTS判断create表前面加上IF NOT EXISTS判断设置合理的生命周期,保证有用的历史数据不被删除,同时避免存储资源浪费使用常见的字段类型 DataTime、Bigint、Double、String,如使用其他字段,需要项目组评估DROP TABLE IF EXISTS ITSL_dev.dwd_sl_ams_tb_vms_cs_carinfo_d ;CREATE TABLE IF NOT EXISTS ITS原创 2021-01-28 14:17:05 · 576 阅读 · 0 评论 -
第四章:数据建模
1、数据建模的意义设想一下:情景1:如果需要建一个工厂,需要加入一条新的线路,上面2个情况,哪个更容易加呢?情景2:如果线路发生故障,需要排查问题点在哪里,上面2个情况,哪个更容易呢?这就引出了数据建模的作用:加快数据的运算效率,更方便扩展,适应新的数据产品需求。2、数据落仓将业务数据、日志数据、爬虫数据通过ETL工具,加载到数据中台的ODS层进行存储,这个过程就叫数据落仓。3、数据探索数据落仓之后,需要数仓开发人员,申请相关ODS层表的读取权限,审核通过之后,就可以进行数据探索了。数原创 2021-01-27 18:57:38 · 1022 阅读 · 0 评论 -
第三章:数据采集
数据采集,在数仓开发过程中至关重要,它要求数据类型全、数据量完整、尽可能覆盖数据流转的各个环节,它是数仓建设的核心底座,毕竟巧妇难为无米之炊嘛。1、数据的来源(1)数据库数据库不用过多介绍,业务系统例如CRM、ERP、财务系统等等,每天都会生成大量的业务数据,存储在mysql、SqlServer、Oracle等关系型数据库中。(2)日志日志也是采集数据的重要来源,因为日志记录了程序执行的情况,例如用户登录数据、用户操作数据等,使用这些数据可以统计PV、UV等指标。(3)前端埋点用户很多前端请求原创 2021-01-26 18:16:53 · 1001 阅读 · 2 评论 -
第二章:指标管理
这里涉及到两个概念:数据指标和指标体系。数据指标:对业务中产生的内部数据或者互联网中爬取的外部数据,按照一定的业务逻辑,使用一定的技术手段进行加工处理,能够描述、分析、预测业务的结果数据。指标体系:指标体系是将零散单点的具有相互联系的指标,系统化的组织起来,通过单点看全局,通过全局解决单点的问题。那就产生了一个问题,既然有了指标,干嘛还需要指标体系呢?一个指标没办法解决复杂的业务问题,这就需要使用多个指标从不同维度来评估业务,也就是使用指标体系。比如说衡量一个淘宝店的业务发展,我们可以用一个核心原创 2021-01-26 17:06:09 · 1592 阅读 · 0 评论 -
第一章:专栏大纲
很多人数仓开发人员有一个误解,认为数仓开发的门槛极低,只需要会写SQL就可以了。其实不然,专业的数仓开发需要很多方便的知识沉淀,包括但不限于:需求理解,培养业务sense,指标梳理、数据采集、落仓、数据探索、数据建模、调度配置、数仓上线、数据核对、数仓下线等等。会搭建数仓不难,但是搭建一个规范的、高效的、高扩展的、低成本的数据仓库,绝对不是一件简单的事情。这既要知识面的宽度,更需要知识面的深度,当然少不了需要经验的积累。这里的经验就是多做项目,多踩坑,经过不断的总结和提升,你就能在新的项目和产品中少走一些原创 2021-01-26 15:52:54 · 278 阅读 · 1 评论