解读《Hadoop 构建数据仓库实践》

最新推荐文章于 2024-06-29 10:21:58 发布

dbLenis

最新推荐文章于 2024-06-29 10:21:58 发布

阅读量3.6k

点赞数 1

分类专栏： BusinessIntelligence/DataWareH 文章标签： hadoop 数据仓库

BusinessIntelligence/DataWareH 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

书中构建一个数据仓库示例模型的讲解，实实在在的透漏了一个基于big data 的数据仓库原型。
可以看做是一个非典型的应用场景。里面有很多的点，是可以值得拿出来好好深入思考的，举一反三

在数据建模这块，就会遇到一个数据模型的存储细节问题。
Hive 的用途在整个数据仓库中，是可以放在RDS,TDS两个阶段的。按照作者的思路，RDS, TDS 分别承载了整个数据仓库数据流的两个不同存储阶段。RDS, 即 Raw Data Source, 用来缓存各个应用系统过来的数据。没有经过转化，所以存储在 Hive 中，便可以有效利用 Hive 提供的分布式聚合功能，整合好数据，进入下一步转换。TDS，即 Transmission Data Source, 也就是承载转换后的数据存储区域。

Hive 的这两种应用，底层存储的可以是 Text 文本文件，也可以是 Json 格式文件，还可以是其他格式文件，比如压缩版本的 Text 文件，压缩版本的 Json 文件。Text 文件是内置默认的文件格式，那么怎么来适配 Json 文件格式？因为 Hive 调用的输入输出 API , 其实就是 Hadoop 的 InputFormat, OutputFormat API. 这些 API 是 Java 编写的，因此如果要想用其他 InputFormat, OutputFormat API, 就需要添加这些 API 的 Jar 包。过程如下：

先打开 Hive
加载新的 Json 适配 API :
add jar /JsonApi/hive-hcatalog-core.jar
这里的 /JsonApi 是一个替代路径，在这个路径下面，存放着对应的 Json Format Api 的Jar 包
创建新表的时候，使用这个 Jar 包来作为表结构的存储方式：

create table if not exists sales(
        name string
,       salary float
,       subordinates array<string>
,       deductions map<string,float>
,       address struct<street:string,city:string,state:string,zip:int>
)
row format serde "org.apache.hadoop.hive.contrib.serde2.JsonSerde"
stored as textfile
;

4 在生成Json 格式的数据时，尤其要注意的是：所有的 Json 对象必须写在一行上。
因为一个Json对象，就被当做是一行记录，存到 Hive 表里面。如果将一个 Json 对象写成了多行，并且用回车换行，那么就会报这样的错误：

Failed with exception
java.io.IOException:org.apache.hadoop.hive.serde2.SerDeException:
java.io.IOException: Start token not found where expected
Failed with exception
java.io.IOException:org.apache.hadoop.hive.serde2.SerDeException:
org.codehaus.jackson.JsonParseException: Unexpected end-of-input:
expected close marker for OBJECT (from [Source:
java.io.ByteArrayInputStream@498b611e; line: 1, column: 0]) at
[Source: java.io.ByteArrayInputStream@498b611e; line: 1, column: 3]

针对 Json 文件的适配器，Hive 有自带的 SerDe 包，也有第三方的包可以使用。必须都在 add jar 命令中指定明确要使用的 SerDe 包的 Jar 名。

Hive 2.2.0 自带的 JsonSerDe 包是 hive-hcatalog-core.jar.
serDe 类是 row format serde ‘org.apache.hive.hcatalog.data.JsonSerDe’

比如 cdh 有自己的 Json SerDe Jar 包： hive-hcatalog-core.jar .
需要下载这个 Jar 包，并在 create table 中指定 JsonSerDe 类。
row format serde “org.apache.hive.hcatalog.data.JsonSerde”

第三方的包，还有：
1. 随着 Google “Summer of Code” 项目（http://code.google.com/p/hive-json-serde/)发展起来的 Json Serde
2. 在 Google “Summer Of Code” 的 Json Serde 上交叉形成的分支， Think Big Analytics Json Serde: https://github.com/thinkbiganalytics/hive-json-serde。这个时候我们就需要使用对应的 Json Serde 类了： row format serde “org.apache.hadoop.hive.contrib.serde2.JsonSerde”。