实时计算Flink > 独享模式 > Batch（试用） > 创建源表 —— 创建HDFS源表

最新推荐文章于 2023-06-30 15:35:36 发布

weixin_33832340

最新推荐文章于 2023-06-30 15:35:36 发布

阅读量185

点赞数

文章标签：大数据

原文链接：https://yq.aliyun.com/articles/669119

版权

创建 HDFS 源表

HDFS是Hadoop的分布式文件系统。HDFS可以作为Blink Batch的源表和结果表。HDFS上可以存储各种文件类型，目前Blink支持对CSV/Parquet/ORC文件格式的解析。以CSV为例，说明hdfs source用法

大部分情况下，HDFS上的文件都是以表的形式保存的，表下面还有分区，例如：

$hadoop fs -ls /user/hive/warehouse/xxx/table1/
Found 989 items
drwxrwxrwx - serving supergroup 0 2017-03-09 15:44 /user/hive/warehouse/xxx/table1/dt=20180814
drwxrwxrwx - serving supergroup 0 2017-03-09 15:44 /user/hive/warehouse/xxx/table1/dt=20180815

读表table1的某个分区数据的示例代码如下：

目前CSV文件暂不支持递归读取多级目录，只能读某个子目录下的所有文件

HDFS上文件可存储为压缩格式orc/parquet，读取这两类文件时，可递归读取某个目录下所有文件，例如，某个表在hdfs上的保存目录如下：

$hadoop fs -ls /user/hive/warehouse/xxx/table1/
Found 989 items
drwxrwxrwx - serving supergroup 0 2017-03-09 15:44 /user/hive/warehouse/xxx/table1/dt=20180814
drwxrwxrwx - serving supergroup 0 2017-03-09 15:44 /user/hive/warehouse/xxx/table1/dt=20180815

现要读取整个表table1的所有数据，示例代码如下：

enumerateNestedFiles 参数可递归

目前只支持tuple模式的topic

参数	注释说明	备注
type	hdfs上文件类型	目前blink支持对CSV/Parquet/ORC文件格式的解析
path	文件在HDFS上路径
lineDelimiter	文件的行分隔符	默认’\n’
fileSplitMinSize	文件切分大小，控制并发	默认33554432000L
isContinuousStream		默认true
fieldDelimiter	文件的列分隔符	默认’,’

本文转自实时计算—— 创建HDFS源表

关注