Hive中的Serializer和Deserializer

最新推荐文章于 2023-11-14 13:55:39 发布

入门就入土&小迷弟

最新推荐文章于 2023-11-14 13:55:39 发布

阅读量477

点赞数 1

文章标签： hive hadoop 大数据

本文链接：https://blog.csdn.net/qq_40953864/article/details/130466477

版权

在Hive中，Serializer（序列化器）和Deserializer（反序列化器）是用于将表数据与Hadoop文件系统中的文件进行相互转换的工具。

Serializer（序列化器）用于将表中的数据序列化为一种指定格式的二进制数据，以便能够写入到Hadoop文件系统中的文件中。通常情况下，Serializer的作用是将表转化为文件。

Deserializer（反序列化器）则是将Hadoop文件系统中的文件中的二进制数据反序列化为表中的数据。通常情况下，Deserializer的作用是将文件转化为表。

在Hive中，常用的Serializer和Deserializer有以下几种：

ORC SerDe：用于将表数据序列化为ORC文件格式或将ORC文件格式反序列化为表数据。
Parquet SerDe：用于将表数据序列化为Parquet文件格式或将Parquet文件格式反序列化为表数据。
Avro SerDe：用于将表数据序列化为Avro文件格式或将Avro文件格式反序列化为表数据。

例如，假设我们有如下的一张表：

CREATE TABLE my_table (id INT, name STRING, age INT);

我们可以使用ORC SerDe将表数据序列化为ORC文件格式并写入HDFS中的文件中：

INSERT OVERWRITE DIRECTORY '/user/hive/warehouse/my_table_orc' 
ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.orc.OrcSerde' 
STORED AS ORC 
SELECT * FROM my_table;

上述语句中，ROW FORMAT SERDE指定了序列化器为OrcSerde，STORED AS指定了存储格式为ORC。

反过来，我们可以使用ORC SerDe将Hadoop文件系统中的ORC文件反序列化为表数据：

CREATE TABLE my_table_orc (id INT, name STRING, age INT)
ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
STORED AS ORC
LOCATION '/user/hive/warehouse/my_table_orc';

上述语句中，ROW FORMAT SERDE指定了反序列化器为OrcSerde，STORED AS指定了存储格式为ORC，LOCATION指定了ORC文件所在的目录。

总之，Serializer和Deserializer是将表数据与Hadoop文件系统中的文件进行相互转换的工具，Serializer用于将表转化为文件，而Deserializer用于将文件转化为表。

入门就入土&小迷弟

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hive中的Serializer和Deserializer

总之，Serializer和Deserializer是将表数据与Hadoop文件系统中的文件进行相互转换的工具，Serializer用于将表转化为文件，而Deserializer用于将文件转化为表。Serializer（序列化器）用于将表中的数据序列化为一种指定格式的二进制数据，以便能够写入到Hadoop文件系统中的文件中。通常情况下，Deserializer的作用是将文件转化为表。ORC SerDe：用于将表数据序列化为ORC文件格式或将ORC文件格式反序列化为表数据。
复制链接

扫一扫