Hive 的 SerDe 是什么？

Shockang

于 2021-06-21 00:05:18 发布

阅读量1.3w

点赞数 15

分类专栏：大数据技术体系文章标签：大数据 hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Shockang/article/details/118077454

版权

大数据技术体系专栏收录该内容

282 篇文章 553 订阅

订阅专栏

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

正文

hive 的 SerDe 是什么

SerDe 是 Serializer/Deserializer 的简写。

hive使用 SerDe 进行行对象的序列与反序列化。最后实现把文件内容映射到 hive 表中的字段数据类型。

为了更好的阐述使用 SerDe 的场景，我们需要了解一下 Hive 是如何读数据的(类似于 HDFS 中数据的读写操作)：

HDFS files –> InputFileFormat –> <key, value> –> Deserializer –> Row object

Row object –> Serializer –> <key, value> –> OutputFileFormat –> HDFS files

hive 的 SerDe 类型

Hive 中内置 org.apache.hadoop.hive.SerDe2 库，内部封装了很多不同的 SerDe 类型。
hive 创建表时，通过自定义的 SerDe 或使用 Hive 内置的 SerDe 类型指定数据的序列化和反序列化方式。

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]

如上创建表语句，使用 row format 参数说明SerDe的类型。
可以创建表时使用用户自定义的 SerDe 或者 native SerDe，如果 ROW FORMAT 没有指定或者指定了 ROW FORMAT DELIMITED 就会使用 native SerDe。

Avro (Hive 0.9.1 and later)
ORC (Hive 0.11 and later)
RegEx
Thrift
Parquet (Hive 0.13 and later)
CSV (Hive 0.14 and later)
MultiDelimitSerDe

关注

15
点赞
踩
25

收藏

觉得还不错? 一键收藏
25
评论
Hive 的 SerDe 是什么？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文hive 的 SerDe 是什么SerDe 是 Serializer/Deserializer 的简写。hive使用 SerDe 进行行对象的序列与反序列化。最后实现把文件内容映射到 hive 表中的字段数据类型。为了更好的阐述使用 SerDe 的场景，我们需要了解一下 Hive 是如何读数据的(类
复制链接

扫一扫

专栏目录

评论 25

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。