Hive 序列化 / 反序列化:如何让数据「打包发货」与「拆箱还原」?

一、引言

在大数据领域,数据的存储与传输是核心环节。Hive 作为基于 Hadoop 的数据仓库工具,其数据处理过程高度依赖序列化与反序列化技术。本文将深入剖析 Hive 中序列化与反序列化的原理,并结合 Serde(序列化 / 反序列化器)的具体应用场景展开详细讲解,助力读者深入理解 Hive 的数据处理机制。

二、序列化与反序列化基础概念

2.1 概念阐释

序列化:把内存中的对象转化为字节流,以便存储到硬盘或进行网络传输。这一过程就如同给 “活物” 对象打造一个能在外部环境运输的 “容器”。

反序列化:与序列化相反,是将存储在硬盘或通过网络传输的字节流重新转化为内存中的对象。

2.2 在不同技术中的应用

  1. Java 序列化:通过实现Serializable接口来完成,常用于 IO 流操作和 Web 开发。不过,其序列化后的数据体积较大。
  2. MapReduce 序列化:Hadoop 摒弃了 Java 序列化方式,自主研发了Writable接口,有效解决了 Java 序列化数据量大的问题。
  3. Hive 中的应用场景
    • 查询操作(反序列化):例如执行select * from t_user;时,需要将硬盘中的数据转化为控制台输出的对象,这一过程依赖InputFormat
    • 插入操作(序列化):当执行insert into t_user values(1,"张三");时,会把内存中的对象转化为 HDFS 上的数据,此过程借助OutputFormat实现。

2.3 关键要点:分隔符与 Serde

在序列化与反序列化过程中,分隔符起着关键作用,它用于界定数据字段的边界。Hive 通过Serde 工具包来处理不同格式的数据,每种分隔符都对应特定的 Serde 类。

三、常见 Serde 类型及实战应用

3.1 默认分隔符(^A/\001):LazySimpleSerDe

Hive 的默认分隔符为^A(八进制编码为\001),对应的 Serde 类是LazySimpleSerDe
示例操作

-- 创建表(使用默认分隔符)
CREATE TABLE t_default(
  id INT,
  name STRING,
  age INT
)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001';

-- 加载数据(数据文件字段用^A分隔)
LOAD DATA LOCAL INPATH '/data/default.txt' INTO TABLE t_default;

3.2 CSV 分隔符:OpenCSVSerDe

适用于以逗号分隔的数据,支持自定义分隔符。
示例操作

-- 创建表(逗号分隔)
CREATE TABLE t_csv(
  id INT,
  name STRING,
  age INT
)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
  "separatorChar" = ","
);

-- 自定义分隔符(如数字7)
CREATE TABLE t_custom_sep(
  id STRING,
  name STRING
)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
  "separatorChar" = "7"
);

3.3 JSON 格式:JsonSerDe(重点)

3.3.1 第三方 JAR 包方案(如 Lombok)
CREATE TABLE t_json(
  id INT,
  info STRUCT<name:STRING, age:INT>
)ROW FORMAT SERDE 'com.fasterxml.jackson.databind.JsonNodeFactory'
STORED AS TEXTFILE;

将 JSON 解析的 JAR 包(如lombok - json - 1.1.0.jar)放入Hive/lib目录。重启metastorehiveserver2服务。创建表并指定 Serde:若出现ClassNotFoundException,需检查 JAR 包是否正确添加。

3.3.2 Hive 自带 JsonSerDe

局限性:仅支持STRING类型,当遇到NUMBER类型时会出现类型不匹配的问题。

-- 示例(字段需全为STRING类型)
CREATE TABLE t_json_builtin(
  data STRING
)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.JsonSerDe';

3.4 正则表达式:RegexSerDe

适用于解析复杂格式的数据,通过正则表达式定义字段分隔规则。

3.4.1 两类 RegexSerDe 的对比
类名功能支持情况字段类型要求
org.apache.hadoop.hive.serde2.RegexSerDe不支持output.format.string无特殊限制
org.apache.hadoop.hive.contrib.serde2.RegexSerDe完全支持必须为STRING类型
3.4.2 实战示例(使用 contrib 版本)
-- 创建表(正则匹配||分隔符)
DROP TABLE IF EXISTS t_regex;
CREATE TABLE t_regex(
  id STRING,
  uname STRING,
  age STRING  -- 必须为STRING类型
)ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
  "input.regex" = "(.*)\\|\\|(.*)\\|\\|(.*)",
  "output.format.string" = "%1$s %2$s %3$s"
);

-- 加载数据
LOAD DATA LOCAL INPATH '/data/regex.txt' INTO TABLE t_regex;
3.4.3 常见错误

错误信息org.apache.hadoop.hive.contrib.serde2.RegexSerDe only accepts string columns

原因分析:字段类型设置为非STRING类型。

解决办法:将所有字段类型定义为STRING,或改用其他 Serde。

电子时钟设计是一个基于单片机的综合性电子项目,涵盖硬件设计、软件设计、模块代码编写以及运行展示等多个环节。以下是该项目的详细分析知识点总结: 电子时钟设计是一项课程设计任务,目标是开发一个功能完善的电子时钟系统。该系统以单片机为核心控制器,具备时间显示、设置和控制等功能,旨在满足用户的日常使用需求。 硬件设计的核心是系统方案原理图,它明确了系统的整体架构以及各组件之间的连接关系。外设设计方面,键盘输入模块和数码管显示模块是关键部分。键盘输入模块的工作原理包括键盘扫描、按键识别以及状态机控制等环节;数码管显示模块的工作原理则涉及数码管的驱动、显示控制和状态机控制等内容。 软件设计的核心是项目软件系统总架构图,它详细介绍了系统的软件框架,涵盖单片机编程、键盘输入模块流程图代码、数码管显示模块流程图代码等方面。顺序图则展示了软件的运行流程,包括系统初始化、键盘输入处理、显示控制和状态机控制等环节。 模块代码是系统各模块功能的具体实现。例如,键盘输入模块的代码实现了键盘扫描、按键识别和状态机控制等功能;数码管显示模块的代码实现了数码管驱动、显示控制和状态机控制等功能。 运行展示是项目的最终成果呈现环节,展示了电子时钟的实际运行效果,包括时间的准确显示、便捷的设置操作以及稳定的控制功能等。 单片机原理:掌握单片机的架构、指令系统和编程方法。 Proteus仿真:熟悉Proteus仿真原理、仿真环境及仿真操作。 C语言编程:理解C语言的语法、数据类型、控制结构、函数和数组等基础知识。 电子时钟设计:了解电子时钟的工作原理、设计方法和实现技术。 硬件设计:掌握硬件设计的基本原理、方法和工具。 软件设计:熟悉软件设计的基本原理、方法和工具。 模块代码实现:掌握模块代码的设计、编程和调试技巧。 电子时钟设计项目融合了硬件软件设计,通过模块代码实现功能,并通过运行展示呈现最终效果。掌握
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值