- 博客(2)
- 资源 (6)
- 收藏
- 关注
原创 Hive整表数据分成256分表样式导出
不是由于mysql数据装载的需要,这样做实在太费时费力;即使用上32个并行,10来分钟就可以整场导出的表,要耗时1个半小时。/Users/nisj/PycharmProjects/BiDataProc/love/userLevel/HiveRunData-yicheng.py # -*- coding=utf-8 -*- import os import time import datetim...
2018-08-08 16:43:19 1127
原创 关于目前某游戏直播平台数仓建设规划的思考
大数据平台etl:sqoop、dataX,及airflow;python串联sql。 sqoop、dataX进行数据的抽取及传送;airflow进行调度;用python进行封装和编码。 游戏直播公司的数据仓库分层设计: 贴源设计的ODS层;主题设计的数据整合层;按需维度设计的集市层。 贴源ODS层数据分为两大类,一类是来源于业务系统数据库、一类是来源于日志,包括系统access log日志及因业...
2018-08-02 19:38:43 1039
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人