这里写目录标题
前提
一、项目各项环境
各项环境的介绍
- MRS-Hive:MRS支持在大数据存储量大,计算资源需要弹性扩展的场景下,用户将数据存储在OBS服务中。使用MRS集群仅做数据计算处理的存算分离模式。
- DWS(高斯200):云原生数据库Gauss DB(DWS)1:融合分析能力是云原生数据GaussDB(DWS)核心亮点之一. DWS采用一套SQL引擎多数据源融合分析并通过算子下推,加速集群等技术对分,析结果性能优化,在数据免搬迁的前提下,实现了跨源数据免迁移,高效分析。DWS云源生数据仓库支持冷热数据多温存储,热数据存储到.数仓内部。冷数据存储在 obs内降低存值成本。
- RDS:云数据库R ds供容灾、备份、恢复、监控、迁移。
- Flink:实时数据开发计算框架,用来替换mapreduce、spark等
- CDL:CDL是一种简单高效的数据实时集成服务,能够从各种oltp数据路中抓取data change 事件 然后推送至kafka中,最后由sink connector 消费topic。
- DRS:数据复制服务(data replication service 简称 drs)是一种易用,稳定,高效,用于数据库在线迁移和数据库实时同步的云服务。
- HetuEngine:华为mrs实时数据湖 这是交互查询引擎; 生产库数据通过CDC工具(debezium)实时录入到MRS集群中Kafka的指定topic里;在MRS集群启动一个SparkStreaming任务,实时读取Kafka指定topic里的数据;同时该SparkStreaming任务将读取到的数据进行解析处理并写入到一张hudi表中;写入hudi表的同时可以指定该数据也写入hive表;通过MRS提供的交互式查询引擎HetuEngine对数据进行快速的交互式查询。
- Hudi:小文件问题。不论是spark的microbatch模式,还是flink的逐条处理模式,每次写入HDFS时都是几MB甚至几十KB的文件。长时间下来产生的大量小文件,会对HDFS namenode产生巨大的压力,对update操作的支持。HDFS系统本身不支持数据的修改,无法实现同步过程中对记录进行修改。事务性。不论是追加数据还是修改数据,如何保证事务性。即数据只在流处理程序commit操作时一次性写入HDFS,当程序rollback时,已写入或部分写入的数据能随之删除,Hudi就是针对以上问题的解决方案之一。使用Hudi自带的DeltaStreamer工具写数据到Hudi,开启–enable-hive-sync 即可同步数据到hive表。
- kafka: kafka是一款分布式、支持分区的、多副本,基于zookeeper协调的分布式消息系统。最大的特性就是可以实时处理大量数据来满足需求。
- cdm(云数据迁移)提供/异构异构迁移迁移服务,帮助数据,帮助客户实现数据自由流动流动。支持客户客户自建自建和和和公有云公有云公有云公有云上文件文件云服务,对象存储等数据源。
- KMS:通过简单、便捷的管理界面,为云上加密提供易用、高安全性的密钥管理服务(Key Management Service)。让您安心使用云服务, 专注于核心业务领域。
二、准备工作
1. 工作流程介绍
DataArts(原DGC)的工作流程。当然,在企业级使用的时候,一般是一个现成的工作环境,这里只是展示一下。
2. 环境说明
参 数 | 说 明 |
---|---|
资源地 | 如果需要使用华为云一整套服务,必须确保资源地区均相同,华为云的资源跨区域是不互通的(比如,都选择华北-北京4) |
vpc | DataArts Studio实例中的数据集成CDM集群所属的VPC。VPC即虚拟私有云,是通过逻辑方式进行网络隔离,提供安全、隔离的网络环境。如果DataArts Studio实例或CDM集群需连接云上服务(如DWS、MRS、RDS等),则您需要确保CDM集群与该云服务网络互通。同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通,如果同虚拟私有云而子网或安全组不同,还需配置路由规则及安全组规则。 |
安全组 | DataArts Studio实例中的数据集成CDM集群所属的安全组。安全组是一组对弹性云服务器的访问规则的集合,为同一个VPC内具有相同安全保护需求并相互信任的弹性云服务器提供访问策略。如果DataArts Studio实例或CDM集群需连接云上服务(如DWS、MRS、RDS等),则您需要确保CDM集群与该云服务网络互通。同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通,如果同虚拟私有云而子网或安全组不同,还需配置路由规则及安全组规则。 |
子网 | DataArts Studio实例中的数据迁移CDM集群所属的子网。通过子网提供与其他网络隔离的、可以独享的网络资源,以提高网络安全。如果DataArts Studio实例或CDM集群需连接云上服务(如DWS、MRS、RDS等),则您需要确保CDM集群与该云服务网络互通。同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通,如果同虚拟私有云而子网或安全组不同,还需配置路由规则及安全组规则。 |
2.1 增量包
对于HDFS和关系型数据库类型的数据源,不方便暴露节点的场景,可选择在源端网络中部署Agent。CDM通过Agent拉取客户内部数据源的数据,但不支持写入数据。
1 创建增量包(agent)
进入CDM主界面,单击左侧导航上的“集群管理”,选择集群后的“作业管理 > Agent管理 > 新建Agent”,根据需求配置Agent相关信息。
2 agent参数说明
这里的vpc、安全组、子网是根据你的cdm
3 工作原理
由图可知,创建agent的前提,是需要一个已知的CDM集群,由此可见上述的参数默认就是与自己创建的cdm集群保持一致的。
2.2 KMS(密钥管理服务)
密钥管理服务(KMS)是一套密钥管理系统, 可以针对云上数据/各端上的加密需求精心设计的密码应用服务,为您的应用提供符合各种要求的密钥服务及极简应用加解密服务,助您轻松使用密钥来加密保护敏感的数据资产。
可直接在华为云工作台中搜索KMS来创建密钥
2.3 标签
标签是由您自定义的、用于标识当前实例的键值对,由标签“键”和标签“值”组
成。
当前DataArts Studio实例标签支持的使用场景如下:
● 当拥有大量云资源时,您可以按使用者、维护者或用途等各类维度为云资源(包
括DataArts Studio实例)添加标签,最后您可以在标签管理服务(简称TMS)通
过标签识别、管理多种云资源,使资源管理变得更加轻松。
● 当拥有多个DataArts Studio实例时,您可以按使用者、维护者或用途等各类维度
为各实例添加标签,然后在DataArts Studio实例列表页面,可以通过标签搜索、
识别DataArts Studio实例。
2.4 obs桶
(1)概念
桶(Bucket)是OBS中存储对象的容器。对象存储提供了基于桶和对象的扁平化存储方式,桶中的所有对象都处于同一逻辑层级,去除了文件系统中的多层级树形目录结构。
OBS中桶和对象的关系
每个桶都有自己的存储类别、访问权限、所属区域等属性,用户可以在不同区域创建不同存储类别和访问权限的桶,并配置更多高级属性来满足不同场景的存储诉求。
对象存储服务设置有三类存储类别,分别为:标准存储、低频访问存储、归档存储,从而满足客户业务对存储性能、成本的不同诉求。创建桶时可以指定桶的存储类别,桶的存储类别可以修改。
在OBS中,桶名必须是全局唯一的且不能修改,即用户创建的桶不能与自己已创建的其他桶名称相同,也不能与其他用户创建的桶名称相同。桶所属的区域在创建后也不能修改。每个桶在创建时都会生成默认的桶ACL(Access Control List),桶ACL列表的每项包含了对被授权用户授予什么样的权限,如读取权限、写入权限等。用户只有对桶有相应的权限,才可以对桶进行操作,如创建、删除、显示、设置桶ACL等。
一个账号可创建100个桶。每个桶中存放的对象的数量和大小总和没有限制,用户不需要考虑数据的可扩展性。
由于OBS是基于REST风格HTTP和HTTPS协议的服务,您可以通过URL(Uniform Resource Locator)来定位资源。
(2)工作流程
(3)创建obs桶
一般在企业级别的关系来说,obs桶的权限不一定会划分出来,这里只是做介绍,实际生产开发中根据权限划分需求来决定。
创建obs直接在控制台中搜索obs即可,根据需求来创建所需的obs。
2.5工作空间
(1)什么是工作空间
系统将默认为其创建一个默认的工作空间“default”,并赋予该用户管理员角色,您可以使用默认的工作空间,也可以自己创建一个新的工作空间。
DataArts Studio实例内的工作空间作为成员管理、角色和权限分配的基本单元,包含了完整的DataArts Studio功能,工作空间的划分通常按照分子公司(如集团、子公司、部门等)、业务领域(如采购、生产、销售等)或者实施环境(如开发、测试、生产等),没有特定的划分要求。划分规则随意。
工作空间从系统层面为管理者提供对使用DataArts Studio的用户(成员)权限、资源、DataArts Studio底层计算引擎配置的管理能力。为实现多角色协同开发,管理员可将相关用户加入到工作空间,并赋予DataArts Studio预设的项目管理员、开发者、运维者、访客等角色,其他帐号也只有在加入工作空间并被分配权限后,才可具备管理中心、数据集成、数据架构、数据开发、数据目录、数据质量、数据服务、数据安全模块系列的操作权限。
(2)约束条件
存储作业日志和脏数据依赖于OBS服务;如无OBS服务,则不支持作业日志和脏数据存储。obs桶的创建见上面的说明。
(3)创建工作空间
- 使用帐号进入DataArts Studio(DGC)控制台。
- 单击控制台的“空间管理”页签,进入工作空间页面。
- 单击“新建”,在空间信息页面请根据页面提示配置参数,参数说明如图所
示,配置完成后,单击“确定”完成工作空间的创建。
(4)配置说明
(5)工作空间配置
查看工作空间配额使用量
- 登录DataArts Studio控制台。
- 找到所需要的DataArts Studio实例,在DataArts Studio实例上单击“进入控制
台”。然后,选择“空间管理”页签。 - 在“空间管理”页面,找到所需编辑的工作空间,单击其所在行的“配额使用
量”,此时显示“配额使用量”页面。 - 在“配额使用量”页面,您可以查看当前空间内,各配额规格的使用量。
编辑工作空间
- 登录DataArts Studio控制台。
- 找到所需要的DataArts Studio实例,在DataArts Studio实例上单击“进入控制
台”。然后,选择“空间管理”页签。 - 在“空间管理”页面,找到所需编辑的工作空间,单击其所在行的“编辑”,此
时显示“空间信息”页面。 - 在“空间信息”页面的最上方,单击编辑按钮,您就可以编辑空间信息以及管理
空间成员,可以给空间成员授予相关权限。请根据页面提示进行配置。