hive类知识
老子天下最美
缘来缘去终会散,花开花败总归尘
展开
-
什么是数据倾斜以及造成的原因
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的...转载 2018-10-13 21:01:41 · 2346 阅读 · 0 评论 -
hive和mysql(传统数据库)的区别
1.查询语言不同:hive是hql语言,mysql是sql语句; 2.数据存储位置不同:hive是把数据存储在hdfs上,而mysql数据是存储在自己的系统中; 3.数据格式:hive数据格式可以用户自定义,mysql有自己的系统定义格式; 4.数据更新:hive不支持数据更新,只可以读,不可以写,而sql支持数据更新; 5.索引:hive没有索引,因此查询数据的时候是通过mapreduc...原创 2018-10-12 18:51:27 · 28767 阅读 · 4 评论 -
数据仓库和数据库的区别
1、最直白的区别:数据仓库是面向主题,存储的是历史数据。数据库是面向事务,存储的都是当前在线交易的业务数据; 2、数据仓库是尽量引入冗余数据,保证数据的完整性,采用反范式设计。而数据库是尽量避免数据冗余,采用的是范式规则; 3、本质区别:数据仓库目的是为了分析数据,数据库目的是为了捕获数据; 什么是范式?什么是反范式? 范式强调的没有任何依赖关系,反范式强调的有依赖关系,比如说查询一条数据...原创 2018-10-12 18:36:01 · 3940 阅读 · 0 评论