一、引言
在大数据领域,数据的存储与传输是核心环节。Hive 作为基于 Hadoop 的数据仓库工具,其数据处理过程高度依赖序列化与反序列化技术。本文将深入剖析 Hive 中序列化与反序列化的原理,并结合 Serde(序列化 / 反序列化器)的具体应用场景展开详细讲解,助力读者深入理解 Hive 的数据处理机制。
二、序列化与反序列化基础概念
2.1 概念阐释
序列化:把内存中的对象转化为字节流,以便存储到硬盘或进行网络传输。这一过程就如同给 “活物” 对象打造一个能在外部环境运输的 “容器”。
反序列化:与序列化相反,是将存储在硬盘或通过网络传输的字节流重新转化为内存中的对象。
2.2 在不同技术中的应用
- Java 序列化:通过实现
Serializable
接口来完成,常用于 IO 流操作和 Web 开发。不过,其序列化后的数据体积较大。 - MapReduce 序列化:Hadoop 摒弃了 Java 序列化方式,自主研发了
Writable
接口,有效解决了 Java 序列化数据量大的问题。 - Hive 中的应用场景
- 查询操作(反序列化):例如执行
select * from t_user;
时,需要将硬盘中的数据转化为控制台输出的对象,这一过程依赖InputFormat
。 - 插入操作(序列化):当执行
insert into t_user values(1,"张三");
时,会把内存中的对象转化为 HDFS 上的数据,此过程借助OutputFormat
实现。
- 查询操作(反序列化):例如执行
2.3 关键要点:分隔符与 Serde
在序列化与反序列化过程中,分隔符起着关键作用,它用于界定数据字段的边界。Hive 通过Serde 工具包来处理不同格式的数据,每种分隔符都对应特定的 Serde 类。
三、常见 Serde 类型及实战应用
3.1 默认分隔符(^A/\001):LazySimpleSerDe
Hive 的默认分隔符为^A
(八进制编码为\001
),对应的 Serde 类是LazySimpleSerDe
。
示例操作:
-- 创建表(使用默认分隔符)
CREATE TABLE t_default(
id INT,
name STRING,
age INT
)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001';
-- 加载数据(数据文件字段用^A分隔)
LOAD DATA LOCAL INPATH '/data/default.txt' INTO TABLE t_default;
3.2 CSV 分隔符:OpenCSVSerDe
适用于以逗号分隔的数据,支持自定义分隔符。
示例操作:
-- 创建表(逗号分隔)
CREATE TABLE t_csv(
id INT,
name STRING,
age INT
)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
"separatorChar" = ","
);
-- 自定义分隔符(如数字7)
CREATE TABLE t_custom_sep(
id STRING,
name STRING
)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
"separatorChar" = "7"
);
3.3 JSON 格式:JsonSerDe(重点)
3.3.1 第三方 JAR 包方案(如 Lombok)
CREATE TABLE t_json(
id INT,
info STRUCT<name:STRING, age:INT>
)ROW FORMAT SERDE 'com.fasterxml.jackson.databind.JsonNodeFactory'
STORED AS TEXTFILE;
将 JSON 解析的 JAR 包(如lombok - json - 1.1.0.jar
)放入Hive/lib
目录。重启metastore
和hiveserver2
服务。创建表并指定 Serde:若出现ClassNotFoundException
,需检查 JAR 包是否正确添加。
3.3.2 Hive 自带 JsonSerDe
局限性:仅支持STRING
类型,当遇到NUMBER
类型时会出现类型不匹配的问题。
-- 示例(字段需全为STRING类型)
CREATE TABLE t_json_builtin(
data STRING
)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.JsonSerDe';
3.4 正则表达式:RegexSerDe
适用于解析复杂格式的数据,通过正则表达式定义字段分隔规则。
3.4.1 两类 RegexSerDe 的对比
类名 | 功能支持情况 | 字段类型要求 |
---|---|---|
org.apache.hadoop.hive.serde2.RegexSerDe | 不支持output.format.string | 无特殊限制 |
org.apache.hadoop.hive.contrib.serde2.RegexSerDe | 完全支持 | 必须为STRING 类型 |
3.4.2 实战示例(使用 contrib 版本)
-- 创建表(正则匹配||分隔符)
DROP TABLE IF EXISTS t_regex;
CREATE TABLE t_regex(
id STRING,
uname STRING,
age STRING -- 必须为STRING类型
)ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "(.*)\\|\\|(.*)\\|\\|(.*)",
"output.format.string" = "%1$s %2$s %3$s"
);
-- 加载数据
LOAD DATA LOCAL INPATH '/data/regex.txt' INTO TABLE t_regex;
3.4.3 常见错误
错误信息:org.apache.hadoop.hive.contrib.serde2.RegexSerDe only accepts string columns
原因分析:字段类型设置为非STRING
类型。
解决办法:将所有字段类型定义为STRING
,或改用其他 Serde。