Hive中的InputFormat、OutputFormat与SerDe

最新推荐文章于 2024-06-28 13:05:00 发布

等你628

最新推荐文章于 2024-06-28 13:05:00 发布

阅读量3.6k

点赞数

分类专栏： hive 文章标签： hive SerDe

本文链接：https://blog.csdn.net/u010143774/article/details/51737711

版权

hive 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Hive中，默认使用的是TextInputFormat，一行表示一条记录。在每条记录(一行中)，默认使用^A分割各个字段。

在有些时候，我们往往面对多行，结构化的文档，并需要将其导入Hive处理，此时，就需要自定义InputFormat、OutputFormat，以及SerDe了。

首先来理清这三者之间的关系，我们直接引用Hive官方说法：

SerDe is a short name for “Serializer and Deserializer.”
Hive uses SerDe (and !FileFormat) to read and write table rows.
HDFS files –> InputFileFormat –> <key, value> –> Deserializer –> Row object
Row object –> Serializer –> <key, value> –> OutputFileFormat –> HDFS files

总结一下，当面临一个HDFS上的文件时，Hive将如下处理（以读为例）：

(1) 调用InputFormat，将文件切成不同的文档。每篇文档即一行(Row)。
(2) 调用SerDe的Deserializer，将一行(Row)，切分为各个字段。

当HIVE执行INSERT操作，将Row写入文件时，主要调用OutputFormat、SerDe的Seriliazer，顺序与读取相反

参考：http://www.coder4.com/archives/4031

等你628

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hive中的InputFormat、OutputFormat与SerDe

Hive中，默认使用的是TextInputFormat，一行表示一条记录。在每条记录(一行中)，默认使用^A分割各个字段。在有些时候，我们往往面对多行，结构化的文档，并需要将其导入Hive处理，此时，就需要自定义InputFormat、OutputFormat，以及SerDe了。首先来理清这三者之间的关系，我们直接引用Hive官方说法：SerDe is a short name for “Seria
复制链接

扫一扫