Hive 序列化 / 反序列化：如何让数据「打包发货」与「拆箱还原」？

最新推荐文章于 2025-05-29 23:38:09 发布

线条1

最新推荐文章于 2025-05-29 23:38:09 发布

阅读量677

点赞数 19

文章标签： hive hadoop

本文链接：https://blog.csdn.net/Cy513841863/article/details/148264355

版权

一、引言

在大数据领域，数据的存储与传输是核心环节。Hive 作为基于 Hadoop 的数据仓库工具，其数据处理过程高度依赖序列化与反序列化技术。本文将深入剖析 Hive 中序列化与反序列化的原理，并结合 Serde（序列化 / 反序列化器）的具体应用场景展开详细讲解，助力读者深入理解 Hive 的数据处理机制。

二、序列化与反序列化基础概念

2.1 概念阐释

序列化：把内存中的对象转化为字节流，以便存储到硬盘或进行网络传输。这一过程就如同给 “活物” 对象打造一个能在外部环境运输的 “容器”。

反序列化：与序列化相反，是将存储在硬盘或通过网络传输的字节流重新转化为内存中的对象。

2.2 在不同技术中的应用

Java 序列化：通过实现Serializable接口来完成，常用于 IO 流操作和 Web 开发。不过，其序列化后的数据体积较大。
MapReduce 序列化：Hadoop 摒弃了 Java 序列化方式，自主研发了Writable接口，有效解决了 Java 序列化数据量大的问题。
Hive 中的应用场景
- 查询操作（反序列化）：例如执行select * from t_user;时，需要将硬盘中的数据转化为控制台输出的对象，这一过程依赖InputFormat。
- 插入操作（序列化）：当执行insert into t_user values(1,"张三");时，会把内存中的对象转化为 HDFS 上的数据，此过程借助OutputFormat实现。

2.3 关键要点：分隔符与 Serde

在序列化与反序列化过程中，分隔符起着关键作用，它用于界定数据字段的边界。Hive 通过Serde 工具包来处理不同格式的数据，每种分隔符都对应特定的 Serde 类。

三、常见 Serde 类型及实战应用

3.1 默认分隔符（^A/\001）：LazySimpleSerDe

Hive 的默认分隔符为^A（八进制编码为\001），对应的 Serde 类是LazySimpleSerDe。
示例操作：

-- 创建表（使用默认分隔符）
CREATE TABLE t_default(
  id INT,
  name STRING,
  age INT
)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001';

-- 加载数据（数据文件字段用^A分隔）
LOAD DATA LOCAL INPATH '/data/default.txt' INTO TABLE t_default;

3.2 CSV 分隔符：OpenCSVSerDe

适用于以逗号分隔的数据，支持自定义分隔符。
示例操作：

-- 创建表（逗号分隔）
CREATE TABLE t_csv(
  id INT,
  name STRING,
  age INT
)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
  "separatorChar" = ","
);

-- 自定义分隔符（如数字7）
CREATE TABLE t_custom_sep(
  id STRING,
  name STRING
)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
  "separatorChar" = "7"
);

3.3 JSON 格式：JsonSerDe（重点）

3.3.1 第三方 JAR 包方案（如 Lombok）

CREATE TABLE t_json(
  id INT,
  info STRUCT<name:STRING, age:INT>
)ROW FORMAT SERDE 'com.fasterxml.jackson.databind.JsonNodeFactory'
STORED AS TEXTFILE;

将 JSON 解析的 JAR 包（如lombok - json - 1.1.0.jar）放入Hive/lib目录。重启metastore和hiveserver2服务。创建表并指定 Serde：若出现ClassNotFoundException，需检查 JAR 包是否正确添加。

3.3.2 Hive 自带 JsonSerDe

局限性：仅支持STRING类型，当遇到NUMBER类型时会出现类型不匹配的问题。

-- 示例（字段需全为STRING类型）
CREATE TABLE t_json_builtin(
  data STRING
)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.JsonSerDe';

3.4 正则表达式：RegexSerDe

适用于解析复杂格式的数据，通过正则表达式定义字段分隔规则。

3.4.1 两类 RegexSerDe 的对比

类名	功能支持情况	字段类型要求
`org.apache.hadoop.hive.serde2.RegexSerDe`	不支持`output.format.string`	无特殊限制
`org.apache.hadoop.hive.contrib.serde2.RegexSerDe`	完全支持	必须为`STRING`类型

3.4.2 实战示例（使用 contrib 版本）

-- 创建表（正则匹配||分隔符）
DROP TABLE IF EXISTS t_regex;
CREATE TABLE t_regex(
  id STRING,
  uname STRING,
  age STRING  -- 必须为STRING类型
)ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
  "input.regex" = "(.*)\\|\\|(.*)\\|\\|(.*)",
  "output.format.string" = "%1$s %2$s %3$s"
);

-- 加载数据
LOAD DATA LOCAL INPATH '/data/regex.txt' INTO TABLE t_regex;