大数据
文章平均质量分 70
lanxingbudui
这个作者很懒,什么都没留下…
展开
-
HIVE的定义,HIVE是什么?
一、我们看下官网(https://cwiki.apache.org/confluence/display/Hive/Home)的定义: The Apache Hive™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage...原创 2018-08-27 16:50:32 · 5141 阅读 · 0 评论 -
OLAP和OLTP的介绍和区别
一、定义: OLTP(on-line transaction processing)联机事务处理:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。 OLAP(On-Line Analytical Processing)联机分析处理:数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 二、OLTP 和 OLAP 特点 OLTP的特...原创 2018-08-29 09:45:02 · 698 阅读 · 0 评论 -
Hive数据存储的模式
一、Hive数据的两种类型 Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 二、Hive的数据存储 Hive是基于Hadoop分布式文件系统的数据仓库架构,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储...转载 2018-08-29 16:04:29 · 292 阅读 · 0 评论 -
Hive内部表与外部表
一、在Hive中创建表时,无external修饰的是内部表(managed table),有external修饰的是外部表(external table): 1、内部表的数据是Hive自身管理,外部表数据由HDFS管理; 2、内部表数据存储的位置是hive在hdfs中存在默认的存储路径,即default数据库(默认:/user/hive/warehouse)。所以在该路径 下的表为...原创 2018-11-06 09:20:11 · 3123 阅读 · 0 评论 -
Hive:简单查询不启用Mapreduce job而启用Fetch task
一、背景: 如果在hive中仅仅查询某个表的一列,Hive也会默认启用MapReduce Job来完成这个任务。我们都知道,启用MapReduce Job是会消耗系统开销的。对于这个问题,从Hive0.10.0版本开始,对于简单的查询语句(没有函数、排序、不需要聚合的查询语句),类似SELECT <col> from <table> LIMIT n语句,当...原创 2018-08-30 10:08:57 · 492 阅读 · 0 评论 -
Hive的优化方法
1、join连接时的优化:当超过2个表进行join关联操作时,如果 on 后面 JOIN 的 key 相同,不管有多少个表,都会则会合并为一个 Map-Reduce。 INSERT OVERWRITE TABLE test_users SELECT t.pageid, u.age FROM test_view t JOIN user u ON (t.userid = u...原创 2018-10-31 18:28:07 · 158 阅读 · 0 评论 -
Hive几种数据导入方式
一、从本地文件系统中导入数据到Hive表 二、HDFS上导入数据到Hive表 三、从别的表中查询出相应的数据并导入到Hive表中 四、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中 详情摘录自:https://www.iteblog.com/archives/949.html ...原创 2018-11-09 08:39:03 · 130 阅读 · 0 评论