- 博客(1)
- 资源 (2)
- 收藏
- 关注
原创 json日志文件通过spark转存成parquet方案
收集的业务数据为json格式,准备利用parquet 格式重新存储到hive表,以节约空间并方便后续通过spark 或 hive 进行分析查询。 (示例代码是用python) 具体步骤是: 1. 用spark读取json数据后,得到一个dataframepath = '/xx/xxx/xxx.json' df = sqlContext.read.json(path)2. dataframe 经
2017-08-15 16:01:37 5136 5
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人