Hive中的序列化和反序列化

最新推荐文章于 2023-06-06 20:02:36 发布

程少亭

最新推荐文章于 2023-06-06 20:02:36 发布

阅读量659

点赞数

分类专栏：大数据文章标签： hive

本文链接：https://blog.csdn.net/a1308422754/article/details/120838217

版权

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

3.1． SerDe是什么
SerDe是Serializer、Deserializer的简称，目的是用于序列化和反序列化。序列化是对象转化为字节码的过程；而反序列化是字节码转换为对象的过程。
Hive使用SerDe（和FileFormat）读取和写入行对象。

将文件数据映射到表上 --反序列化
#百度百科解释-->序列化 (Serialization)
#是将对象的状态信息转换为可以存储或传输的形式的过程。
#在序列化期间，对象将其当前状态写入到临时或持久性存储区。.
#以后，可以通过从存储区中读取或反序列化对象的状态，重新创建该对象。
将表上的数据写入文件 --序列化

需要注意的是，“key”部分在读取时会被忽略，而在写入时key始终是常数。基本上行对象存储在“value”中。
可以通过desc formatted tablename查看表的相关SerDe信息。默认如下：
在这里插入图片描述

3.2． Hive读写文件流程
Hive读取文件机制：首先调用InputFormat（默认TextInputFormat），返回一条一条kv键值对记录（默认是一行对应一条记录）。然后调用SerDe（默认LazySimpleSerDe）的Deserializer，将一条记录中的value根据分隔符切分为各个字段。
Hive写文件机制：将Row写入文件时，首先调用SerDe（默认LazySimpleSerDe）的Serializer将对象转换成字节序列，然后调用OutputFormat将数据写入HDFS文件中。

3.3． SerDe相关语法
在Hive的建表语句中，和SerDe相关的语法为：
在这里插入图片描述

其中ROW FORMAT是语法关键字，DELIMITED和SERDE二选其一。
如果使用delimited表示使用默认的LazySimpleSerDe类来处理数据。如果数据文件格式比较特殊可以使用ROW FORMAT SERDE serde_name指定其他的Serde类来处理数据,甚至支持用户自定义SerDe类。

程少亭

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive中的序列化和反序列化

3.1． SerDe是什么SerDe是Serializer、Deserializer的简称，目的是用于序列化和反序列化。序列化是对象转化为字节码的过程；而反序列化是字节码转换为对象的过程。Hive使用SerDe（和FileFormat）读取和写入行对象。将文件数据映射到表上 --反序列化#百度百科解释-->序列化 (Serialization)#是将对象的状态信息转换为可以存储或传输的形式的过程。#在序列化期间，对象将其当前状态写入到临时或持久性存储区。.#以后，可以通过从存储区中读取或
复制链接

扫一扫