DMETL

DMETL搭建

1、什么是ETL?

ETL(extract-transform-load)它是将大量的原始数据经过提取(extract)、转换(transform)、加载(load)到目标存储数据仓库的过程。

ETL 是企业数据应用过程中的一个数据流(pipeline)的控制技术,把原始的数据(原始数据并不是完美的、洁净的,质量参差不齐的数据对于数据最终的使用会产生很大的影响)经过一定的处理,放入数据仓库里。

提取 extract

在提取阶段,解决的是数据来源问题。主要有以下几种:

  • 业务数据
    在我们企业运行过程中,会有一些用户的交易数据,如用户的购买订单、退款退货、用户发布的视频、用户的注册信息等等,这些都存在我们的业务数据库里,这些数据库通常是关系型数据库,这是我们获取数据的一个重要来源。
  • 文件数据
    还有一些数据是有文件的形式存在,比如我们服务器运行的 log,它记录了用户对网站的请求情况,再比如我们通过埋点收集的日志文件,记录了用户的交互。
  • 第三方数据
    通过第三方购买或者合作形式信用的数据,这些数据可以作为我们业务分析的补充数据。这些数据一般通过和第三方机构的接口(API)形式,对接传输过来。三方的来源、数据形式格式可能有多种多样,就需要我们分别进行对接处理。

转换 transform

弄清楚了数据来源,前边做了数据的整合,对文件格式进行了一些处理。本步骤,根据我们的商业需要,我们用一些规则、方法进行数据处理。一般常见的转换操作有:

  • 筛选:筛选部分数据,或者部分字段,提取一部分有用的数据
  • 清理:缺失值填充、默认值设定、枚举映射等,如将一些编码转为可识别的符号,比如省份代码 sh 转为「上海」
  • 合并:将多个属性合并在一起
  • 格式转换:,如原数据是一下个时间戳(timestamp),我们为了方便后续分析转换为时间格式,指定时区
  • 拆分:将单个属性值拆分为多个属性值,如原为一个邮编,拆分解析成省份、城市等多个字段
  • 排序:按期望的数据顺序进行排列
  • 计算:如原数据为年龄,用当前年份减去年龄同,取得出生年份

原则:

  • 建数仓时尽量保留原始数据,支持多样需求
  • 为特定报表时尽量取所需要的数据

加载 load

数据的加载方式一般有以下两种重要类型:

  • 全量加载(Full load / Bulk load)
  • 增量加载(Incremental load / Refresh load)

全量一般是第一次进行数据加载,这个过程比较长,也有种情况是业务数据存在历史全量数据不停更新的情况,这种情况无论何时都需要全量加载。还有一种情况会追溯一定的时间周期内的数据进行加载,如此业务30天之前的数据不会有再任何变化。

增加加载最为常见,一般一日加载一次,加载上一日数据,也有一周或者一月加载一次的。

加载数据是数据进入数据仓库的最后一步,加载是依赖提取和转换的,因此,加载数据是一个完整的 ETL 过程,这个过程需要大量的数据流转加工时间,而且是周期性重复的工作,所以一般由系统自动完成,执行时间为业务一个最小周期——日(实时数仓会选择更小的时间粒度,如10分钟一次),同时选择业务量小的凌晨进行。

除了增加新增加数据,加载同时伴随着对已加载数据的修改。选择何种加载类型,以及加载周期、加载内容,要看具体业务,产品经理和分析师分析需求最终确定一个最优的方案。

2、DMETL

达梦数据交换平台(简称DMETL)是在总结了众多大数据项目经验和需求并结合最新的大数据发展趋势的基础上研发的具有自主版权的数据处理

与集成平台。达梦数据交换平台创新地将传统的ETL工具(Extract、Transform、Loading)与分布式大数据处理平台相结合,实现了对数据同步、

数据处理以及数据交换共享的一站式支持,大幅度降低了用户使用各种平台进行大数据整合处理的技术门槛,是构建数据中心、数据仓库、数据

交换和数据同步等数据集成类应用的理想平台。

2.1DMETL安装部署

2.1.1下载DMETL安装包

官网地址达梦数据交换平台 DMETL | 达梦数据库 (dameng.com)

2.1.2分别安装调度器(scheduler)、执行器(native)、管理器(manager)

安装调度器(scheduler)

找到调度器解压位置进入安装

安装执行器(native)

安装管理器(manager)

2.1.3启动

最先启动调度器(scheduler),执行器和管理器没有启动先后顺序

进入调度器安装目录查看需不需要修改数据信息

cd /opt/DMETL5/dmetl5_scheduler/scheduler
vim scheduler.ini

启动调度器(scheduler)

在这里插入图片描述

启动执行器(native)

启动管理器(manager)
在这里插入图片描述

没有内置数据库修改manager配置信息为外置数据库

vim manager.ini

2.1.4登录

在网页中输入账号和密码登录(admin/admin)

localhost:8080/login
在这里插入图片描述在这里插入图片描述

如果还有任何问题,欢迎到达梦在线服务平台提问哦!

社区 | 达梦在线服务平台https://eco.dameng.com

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值