大数据之路之平台数据开发规范

一 数据开发规范

  • 命名标准

这个命名包含了表命名,项目命名,作业命名等,拿表名来说,一般都是按系统来为首,业务做次之,接着是表名,最后还加上一些备注信息,demo是 系统_业务_表名_备注,比如来自外部互联网的一条用于监控的每日更新的日志表HLW_JK_LOG_RT,不过具体命名以实际业务来定,唯一需要认真的就是无论是表,项目,还是作业资源这一类的命名都要统一一致,方便后续开发以及管理

  • 脚本规范
  1. 脚本命名由阿拉伯数字(0~9)、字母(a~zA~Z)、下划线(_)组成,并以字母开头,其中字母应全部为小写
  2. {分区}_{功能简述},如:贴源区数据同步的shell脚本,ty_sjtb.sh;
  3. 需要有规范的脚本描述(头部)
  4. 需要有整齐的缩进格式
  5. 脚本里面有详细的注释

举例说明

#!/bin/bash
################################################################################
# SCRIPT_NAME     : xxxx_commit_combine.sh
#
# CREATE_TIME     : 2018/04/10
# AUTHOR          : Mochou_liqb
#
# DESCRIBETION    : get create_table_sql
# PARAMETER       : 1 baseConf, such as XX
# EXAMPLE         : ./xxxx_commit_combine.sh XX TABLE_NAME 20181212
# 
# UPDATE_RECORD   : change comments from Chinese to English and kill some bugs
#
# DATE      OPERATION       CZR         DESCRIBETION              		
# ________  _____________   ________    __________________________________
#
# 2018/12/11  UPDATE Mochou_liqb  
################################################################################

  • 目录规范

目录是广泛定义下的目录,包含作业,脚本,资源等,目录设置的要求需要按层级按分类逐级增加,理应有正文目录和备份目录,目录命名应简洁清晰统一,便于管理规范

  • 数据开发标准规范

代码对照映射:根据业务整理规范得出,如果是该系统独有的代码表,则特殊处理进行标准
非空字段处理:设置默认值.对于日期、字符类型数据项,暂不做处理,对于数值型字段设置为0
代码引用字段:对于不能为空的代码字段实际值为空的代码引用字段,默认填写“;对于标准化映射,根据代码对照映射关系,                             查找到当前字段对应的标准代码表,根据原码值和标准码值的对应关系,用标准码值替换原码值
日期时间字段:对于字段只需具体到天,其他统一各系统日期/时间字段的格式,在源库找出所有时间字段DATE,TIMESTAMP,
                         式为'YAN-MM-DDHH:MISS,对于不符合格式的字段,使用日期时间函数转换
数值数目字段:统一各系统数字格式,对于金額类型的数据,统一格式为保两位小数;对于利率类统一用小数表示

二 平台标准规范

平台规范主要包含

  1. 数据类型规范:主要是平台与数据库之间的数据类型映射规范,这个按照每个数据库系统实际规范来规范
  2. 实体命名规范:项目,表,文件夹,资源等,参考前面介绍
  3. 作业调度规范:规范和控制作业之间前后依赖关系,从而保证数据按照设计流程进行准确加工;通过虚拟节点进行分级分类,方便作业控制与管理;虚拟节点命名规则:xnjd_etl_{虚拟节点类型}物理节点命名规则:参考数据层命名规范中的作业命名规范;
  4. 权限管理规范:权限严格控制,开发,生产项目权限保持界限

三 流计算规范

流计算由于其数据应用的特殊性,是不走大数据平台的而是有自己的一套采集,规范,开发,应用的流程,这一套流程分别对应不同的工具,平台和数据库,由于各大云平台和云生态,其架构不完全统一,故这方面的规范可实际参考前两者,逐一标准

四 运维规范

实施运维

  1. 建立运维机制,每天定时检测平台流程,包括大数据平台,数据库,流计算等并输出运维文档每日提交
  2. 新增数据源依据需求在业务低峰期添加,尽量选择新增作业,做到不影响其他作业运行
  3. 流程出现问题及时实施处理,总结汇报,评估代价,并告知下游

监控表格

由实际业务制定并分发遵循

数据产品开发流程规范_⼤数据开发步骤和流程 ⼤数据项⽬开发步骤: 第⼀步:需求:数据的输⼊和数据的产出; 第⼆步:数据量、处理效率、可靠性、可维护性、简洁性; 第三步:数据建模; 第四步:架构设计:数据怎么进来,输出怎么展⽰,最最重要的是处理流出数据的架构; 第五步:再次思考⼤数据系统和企业IT系统的交互; 第六步:最终确定选择、规范等; 第七步:基于数据建模写基础服务代码; 第⼋步:正式编写第⼀个模块; 第九步:实现其它的模块,并完成测试和调试等; 第⼗步:测试和验收; ⼤数据流程: 从流程⾓度上看,整个⼤数据处理可分成4个主要步骤。 第⼀步是数据的搜集与存储; 第⼆步是通过数据分析技术对数据进⾏探索性研究,包括⽆关数据的剔除,即数据清洗,与寻找数据的模式探索数据的价值所在; 第三步为在基本数据分析的基础上,选择和开发数据分析算法,对数据进⾏建模。从数据中提取有价值的信息,这其实是真正的阿⾥云⼤数 据的学习过程。这当中会涉及很多算法和技术,⽐如机器学习算法等; 最后⼀步是对模型的部署和应⽤,即把研究出来的模型应⽤到⽣产环境之中。 1) 数据采集:定制开发采集程序,或使⽤开源框架flume 2) 数据预处理:定制开发mapreduce程序运⾏于hadoop集群 3) 数据仓库技术:基于hadoop之上的Hive 4) 数据导出:基于hadoop的sqoop数据导⼊导出⼯具 5) 数据可视化:定制开发web程序或使⽤kettle等产品
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

神芷迦蓝寺

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值