大数据技术架构(组件)18——Hive：FileFormats（1）

mylife512

已于 2023-02-04 16:37:55 修改

阅读量683

点赞数 1

分类专栏：大数据文章标签：大数据 hive 架构 Powered by 金山文档

于 2023-02-04 16:36:49 首次发布

本文链接：https://blog.csdn.net/sysocc/article/details/128882958

版权

大数据专栏收录该内容

80 篇文章 4 订阅

订阅专栏

1.5、FileFormats

1.5.1、FileFormat

对比：

1.5.1.1、Text File

每一行都是一条记录，每行都以换行符（\ n）结尾。数据不做压缩，磁盘开销大，数据解析开销大。可结合Gzip、Bzip2使用（系统自动检查，执行查询时自动解压），但使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。

缺点：

1、磁盘开销大

2、解析不方便，如JSON/Xml，比二进制格式解析更消耗资源

3、不具备类型和模式，如数值或者日期类型的数据，无法使用mr排序，需要转换为有模式的二进制文件。

1.5.1.2、SequenceFile

Hadoop API提供的一种二进制文件支持，其具有使用方便、可分割、可压缩的特点。每个Key-Value被看作是一条记录，支持三种压缩选择：NONE, RECORD, BLOCK。 Record压缩率低，一般建议使用BLOCK压缩。

缺点：

1、不支持append操作，序列化后存储的kv数据不是按照key的某个顺序存储的。

2、需要合并文件，且合并后不方便查看

优点：

1、可切分

2、难度低，因为是Hadoop框架提供的API，所以业务侧修改比较简单。

1.5.1.3、RCFile

行列存储相结合的存储方式。首先，其将数据按行分块，保证同一个record在一个块上，避免读一个记录需要读取多个block，那么一个块上可能存在多个行组。其次，块数据列式存储，有利于数据压缩和快速的列存取。

一个行组包括三个部分。第一部分是行组头部的同步标识，主要用于分隔HDFS块中的两个连续行组；第二部分是行组的元数据头部，用于存储行组单元的信息，包括行组中的记录数、每个列的字节数、列中每个域的字节数；第三部分是表格数据段，即实际的列存储数据。在该部分中，同一列的所有域顺序存储。从图可以看出，首先存储了列A的所有域，然后存储列B的所有域等。

注意：

1、采用先水平划分、再垂直划分的思想。

2、RCFile对于重复的数据不会重复压缩，大大节约了存储空间。

3、RCFile默认的行组大小是4MB。

1.5.1.4、Avro Files

Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。Avro是一个数据序列化的系统。Avro 可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集型应用，适合于远程或本地大规模数据的存储和交换。

Avro的数据格式总是以易于处理的形式存储数据结构与数据。Avro可以在运行时使用这些定义以通用的方式向应用程序呈现数据，而不是需要代码生成。

代码生成在Avro中是可选的。它在一些编程语言有时使用特定的数据结构，对应于经常序列化的数据类型是非常好用的。但是在像Pig和 Hive这样的脚本系统中，代码生成将是一种负担，所以Avro不需要它。

存储全部的数据结构定义和数据的另外一个优势是允许数据被更快更简洁的写入。Protocol Buffere 为数据添加注解，因此即使定义和数据不完全匹配，数据仍有可能被处理。然而这些注释使得数据更大和更慢的被处理。Avro不需要这些注释，使得Avro数据比其他序列化系统更小和更快地处理。

注意：不支持通过CTAS语法写入Avro文件，必须要先有Schema。

CREATE TABLE kst
    PARTITIONED BY (ds string)
    ROW FORMAT SERDE
    'org.apache.hadoop.hive.serde2.avro.AvroserDe'
    STORED AS INPUTFORMAT
    'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
    OUTPUTFORMAT
    'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
    TBLPROPERTIES (
    'avro.schema.url'='http://schema provider/kst.avsc');

-- hive9.14之后写法
CREATE TABLE kst (
    string1 string,
    string2 string,
    int1 int,
    boolean1 boolean,
    long1 bigint,
    float1 float,
    double1 double,
    inner_record1 struct<int in inner_recordl:int,string in inner recordl:string>,
    enum1 string,
    arrayl array<string>,
    map1 map<string,string>,
    union1 uniontype<float boolean ,string>,
    fixed1 binary,
    null1 void,
    unionnullint int,
    bytes1 binary)
PARTITIONED BY (ds string)
STORED AS AVRO;

1.5.1.5、ORC （Optimized Row Columnar） Files

高效的行列存储格式。使用ORC格式，在读写方面性能都会有很大的提升。在一定程度上扩展了RCFile,并进行了优化(主要在压缩编码、查询性能方面)。相对于RCFile格式，ORC好处如下：

1、单个文件作为每个任务的输出，降低了 NameNode 的负载

2、支持Hive类型中的 datetime, decimal和复杂类型(List,Map,Struct)

3、文件存储采用了轻量级索引（稀疏索引，默认是跳过10000行）。

4、基于数据类型的块模式压缩

5、使用独立的RecordReaders并发读取同一个文件

6、无需扫描标记就可以拆分文件

7、限制读取或写入所需的内存量

8、使用协议缓冲区存储的元数据，允许添加和删除字段

存储结构：

注意点：

1、Stripes默认大小是250MB.

2、File Footer包含这个文件的strips列表以及每个stripe中的行数和列类型。包含列级别的聚合计数，如sum/count/max/min

3、Stripe footer包含文件目录信息。

4、Index data包含每列的最大值和最小值。以及每列所在的行位置（还包括Bloom Filter和位字段）

三种指定文件类型

--1、参数指定
SET hive.default.fileformat=Orc;
--2、创建表时指定
CREATE TABLE ... STORED AS ORC
--3、修改表存储类型
ALTER TABLE ...[PARTITION partition_spec] SET FILEFORMAT ORC

1.5.1.6、Parquet

基于Dremel数据模型算法实现的，即“record shredding and assembly algorithm”，面向列的二进制文件格式，不能直接读取。Parquet对于大型查询的类型是高效的。对于扫描特定表格中的特定列的查询，Parquet特别有用。Parquet支持压缩Snappy，gzip;目前Snappy默认。

组件交互架构：

查询引擎：Hive,Impala,Pg,Presto,Drill,HAWQ

计算框架：MR,Spark,Crunch,Kite,Cascading

数据模型：Avro,Thrif,Protocol Buffers,POJOS