HDFS日志json转存成parquet方案

最新推荐文章于 2021-02-26 02:48:50 发布

hankl1990

最新推荐文章于 2021-02-26 02:48:50 发布

阅读量2.1k

点赞数

分类专栏： spark

spark 专栏收录该内容

69 篇文章 0 订阅

订阅专栏

转：http://blog.csdn.net/jobschen/article/details/77196092

收集的业务数据为json格式，准备利用parquet 格式重新存储到hive表，以节约空间并方便后续通过spark 或 hive 进行分析查询。
(示例代码是用python)
具体步骤是：
1. 用spark读取json数据后，得到一个dataframe

path = '/xx/xxx/xxx.json'
df = sqlContext.read.json(path)
  
  1
2

2. dataframe 经过filter 、select 等操作再以parquet格式写入hdfs指定路径

df = df.filter(‘xxx’).select(‘xxx’)

3. 目录是按天分区，类似 /parquet/xxxxxx/dt=2017-06-06 这样

df.write.parquet(“/parquet/xxxxxx/dt=2017-06-06”,”overwrite”)

4. 建立对应hive表

CREATE  TABLE xxxxxx(
`xx` string, 
`xxx` bigint,
`xxxxx` string
... ...
...
) 
partitioned by (dt string ) 
STORED as PARQUET 
LOCATION '/parquet/xxxxxx'; 
  
  1
2
3
4
5
6
7
8
9
10

5.这样建立完以后，hive还需要执行一步数据加载，才能查到数据

load data  inpath '/parquet/xxxxxx/dt=2017-06-06' into table xxxxxx partition(dt='2017-06-06')

或者

alter table xxxxxx add partition(dt='2017-06-06') location '/parquet/xxxxxx/dt=2017-06-06';
  
  1
2
3
4
5

load 和 alter 的主要区别是：
load 会创建分区目录，并移动数据到分区下，alter 的方式不会创建分区目录，也不会移动数据。
个人场景alter 方式添加分区更适合。

把json 存储为parquet,不但可以节省50%左右的存储空间，更方便后续工作中的数据查询，并且查询效率比文本方式更高。
如果有更好的方式，欢迎各位大神留言讨论。

hankl1990

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HDFS日志json转存成parquet方案

转：http://blog.csdn.net/jobschen/article/details/77196092收集的业务数据为json格式，准备利用parquet 格式重新存储到hive表，以节约空间并方便后续通过spark 或 hive 进行分析查询。(示例代码是用python) 具体步骤是： 1. 用spark读取json数据后，得到一个dataframe
复制链接

扫一扫