数据仓库
Rayfutao
这个作者很懒,什么都没留下…
展开
-
ETL简介
一、ETL是什么ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。(数据仓库结构)通俗的说法就是从数据源抽取数据出来,进行清洗加工转换,然后加载到定义好的数据仓库模型中去。目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI...转载 2019-08-26 15:53:40 · 959 阅读 · 0 评论 -
Sqoop将MySQL数据导入到HDFS和Hive中
一、将数据从mysql导入 HDFSsqoop import --connect jdbc:mysql://192.168.76.1:3306/workflow --username root --password a --table project报错tool.ImportTool: Encountered IOException running import job: jav...原创 2019-08-26 16:50:53 · 459 阅读 · 0 评论 -
Hive数据倾斜
一、什么是数据倾斜简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。主要表现任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce 子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。 单一 reduce 处理的...原创 2019-08-26 19:56:17 · 167 阅读 · 0 评论