ChunJun项目HDFS数据源连接器使用指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00718/article/details/148549619

ChunJun项目HDFS数据源连接器使用指南

chunjun ChunJun（唤醒）是一个基于 Flink 的实时数据同步工具。 - 提供实时数据同步、数据迁移和数据集成功能，支持多种数据源和数据目的。 - 特点：支持多种数据源和数据目的、高性能、可扩展、易于使用。项目地址: https://gitcode.com/gh_mirrors/ch/chunjun

一、HDFS数据源概述

ChunJun项目的HDFS连接器提供了与Hadoop分布式文件系统(HDFS)的高效集成能力，支持多种主流文件格式的读写操作。作为大数据生态系统中重要的数据存储组件，HDFS连接器在数据集成和ETL流程中扮演着关键角色。

二、核心特性

多格式支持：全面兼容TextFile、ORC和Parquet三种主流文件格式
Hive无缝集成：可直接操作Hive表对应的HDFS存储路径
灵活配置：支持多种Hadoop版本和集群配置模式
数据类型丰富：覆盖常见基础数据类型

三、版本兼容性

支持Hadoop 2.x系列版本
支持Hadoop 3.x系列版本

四、连接器标识

| 使用模式 | 连接器名称 | |---------|-----------| | 同步模式 | hdfssource、hdfsreader | | SQL模式 | hdfs-x |

五、详细配置说明

1. 同步模式配置

基础配置项

path (必填)
- 功能：指定数据文件路径
- 格式：完整路径+文件名
- 示例：/user/hive/warehouse/test.db/test_table/dt=20230101/datafile.parquet
fileType (必填)
- 功能：指定文件格式类型
- 可选值：
  - text：普通文本文件
  - orc：ORC列式存储格式
  - parquet：Parquet列式存储格式
- 默认值：text
defaultFS (必填)
- 功能：HDFS NameNode地址
- 格式：hdfs://<主机名或IP>:<端口>
- 示例：hdfs://namenode01:8020

高级配置项

column (必填)
- 功能：定义字段映射关系
- 配置示例：
```
"column": [
  {
    "name": "user_id",
    "type": "bigint",
    "index": 0
  },
  {
    "name": "create_time",
    "type": "timestamp",
    "format": "yyyy-MM-dd HH:mm:ss"
  },
  {
    "name": "fixed_value",
    "type": "string",
    "value": "constant"
  }
]
```
- 属性详解：
  - name：字段名称（必填）
  - type：字段类型（必填）
  - index：字段位置索引（从0开始）
  - isPart：标记是否为分区字段
  - format：日期时间格式化模式
  - value：常量值设置

hadoopConfig

功能：Hadoop集群高级配置
典型场景：
- HA集群配置
- Kerberos安全认证

示例配置：

"hadoopConfig": {
  "dfs.nameservices": "mycluster",
  "dfs.ha.namenodes.mycluster": "nn1,nn2",
  "dfs.namenode.rpc-address.mycluster.nn1": "node1:8020",
  "dfs.namenode.rpc-address.mycluster.nn2": "node2:8020"
}

2. SQL模式配置

SQL模式配置与同步模式基本对应，主要区别在于参数命名风格：

连字符风格：如file-type替代fileType
配置方式：通过SQL属性语法设置

示例配置：

CREATE TABLE hdfs_source (
  -- 字段定义
) WITH (
  'path' = '/path/to/files',
  'file-type' = 'parquet',
  'default-fs' = 'hdfs://namenode:8020',
  'properties.dfs.nameservices' = 'mycluster'
  -- 其他配置...
);

六、数据类型映射

支持的数据类型

| ChunJun类型 | 对应HDFS格式类型 | |------------|----------------| | BOOLEAN | 布尔值 | | TINYINT | 1字节整数 | | SMALLINT | 2字节整数 | | INT | 4字节整数 | | BIGINT | 8字节整数 | | FLOAT | 单精度浮点数 | | DOUBLE | 双精度浮点数 | | DECIMAL | 高精度小数 | | STRING | 字符串 | | VARCHAR | 可变长度字符串 | | CHAR | 定长字符串 | | TIMESTAMP | 时间戳 | | DATE | 日期 | | BINARY | 二进制数据 |

暂不支持类型

复杂类型：ARRAY、MAP、STRUCT、UNION等

七、使用建议与最佳实践

性能优化：
- 对于大文件处理，合理设置scan.parallelism参数提高并行度
- ORC/Parquet格式相比TextFile具有更好的查询性能
分区处理：
- 利用isPart属性自动提取分区值
- 分区字段建议放在column数组最后
字符编码：
- 非UTF-8编码文件需显式设置encoding参数
- 中文环境注意检查编码一致性
安全配置：
- Kerberos认证需完整配置principal和keytab路径
- 生产环境建议启用HDFS权限检查