Loader技术原理

Loader技术原理
1.什么是Loader

1.2.基于开源Sqoop研发,做了大量优化和扩展。

1.4.Loader是实现FusionInsight HD与关系型数据库、文件系统之间交换数据和文件的数据加载工具。提供可视化向导式的作业配置管理界面;提供定时调度任务,周期性执行Loader作业;在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等。

2.Loader的应用场景

2.2.Loader实现FusionInsight与关系型数据库、文件系统之间交换数据和文件,可以将数据从关系型数据库/文件服务器导入到FusionInsight HDFS/HBase/Hive中,或者反过来从Hadoop HDFS/HBase导出到关系型数据库/文件服务器中。
2.3.Loader提供了本集群内部HDFS和HBase之间的数据导入/导出。
2.4.RDB,Relational Data Base,关系型数据库。
2.5.Customized Data Source:支持插件式,扩展外部数据源。
2.6.注:当前不支持Hive导出。

3.Loader在FusionInsight中的位置

3.2.Loader是实现FusionInsight HD与关系型数据库、文件系统之间交换数据和文件的数据加载工具。

4.Loader特点
4.1.高性能
4.1.1.利用MapReduce并行处理数据
4.2.安 全
4.2.1.Kerberos认证
4.2.2.作业权限管理
4.3.高可靠
4.3.1.Loader Server采用主备双机
4.3.2.作业通过MapReduce执行,支持失败重试
4.3.3.作业失败后,不会残留数据
4.4.图形化
4.4.1.提供图形化配置、监控界面,操作简便
4.6.Loader提供UI界面对作业进行管理,同时也提供了命令行接口,以满足客户调度程序或自动化脚本的需要。
4.7.Loader使用MapReduce进行并行处理。但是在Loader的作业中,有参数会影响MapReduce分片,为了达到最高导入性能,需要选择合适的参数配置。
4.8.Loader的安全版本是在FusionInsight统一配置的。
5.Loader模块架构
8.1.Loader转换原理:
8.2.读取源端数据,通过输入算子将数据按规则一一转换成字段,再通过转换算子,对这些字段做清洗或转换,最后通过输出算子将处理后的字段,输出到目标端。
8.3.Loader算子包括以下类型:
8.4.输入算子:数据转换的第一步,负责将数据转换成字段,每次转换有且只能有一种输入算子,涉及HBase或Hive导入导出时,必须填写。
8.5.转换算子:数据转换的中间转换步骤,属于可选类型,各个转换算子可任意搭配使用。转换算子是针对字段而言,必须先使用输入算子,将数据转换成字段。
8.6.输出算子:数据转换的最后一步,每次转换有且只能有一种输出算子,用于输出处理后的字段。涉及HBase或Hive导入导出时,必须填写。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值