![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
文章平均质量分 88
jiaaq2008
这个作者很懒,什么都没留下…
展开
-
hive与hbase的十大区别与联系
共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别:2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。3.想象你在操作RMDB数据库,如果是全表扫描,就用Hive+Hadoop,如果是索引访问,就用HBase+Hadoop 。4.Hive quer...原创 2014-06-12 10:35:05 · 122 阅读 · 0 评论 -
转-hive 优化——深入浅出学Hive
第一部分:Hadoop 计算框架的特性什么是数据倾斜•由于数据的不均衡原因,导致数据分布不均匀,造成数据大量的集中到一点,造成数据热点Hadoop框架的特性•不怕数据大,怕数据倾斜•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的•s...原创 2014-04-22 11:05:12 · 72 阅读 · 0 评论 -
Hive 在多维统计分析中的应用 & 技巧总结
多维统计一般分两种,我们看看 Hive 中如何解决:1、同属性的多维组合统计(1)问题:有如下数据,字段内容分别为:url, catePath0, catePath1, catePath2, unitparams https://cwiki.apache.org/confluence 0 1 8 {"store":{"fruit":[{"weight":1,"type":"app...原创 2014-04-22 11:00:41 · 157 阅读 · 0 评论 -
Hadoop Hive sql语法详解5--HiveQL与SQL区别
1.hive内联支持什么格式?2.分号字符注意什么问题?3.hive中empty是否为null?4.hive是否支持插入现有表或则分区中?5.hive是否支持INSERT INTO 表 values()?1、Hive不支持等值连接 •SQL中对两表内联可以写成:•select * from dual a,dual b where a.key = b.key;•Hive中应为•select * f...原创 2014-04-21 19:49:12 · 938 阅读 · 0 评论 -
Hadoop Hive sql语法详解4--DQL 操作:数据查询SQL
1.基本的Select 操作如何实现?2.基于Partition的查询如何实现?3.如何实现join,是否支持左连接,右连接?4.hive数据如何去重?5.ORDER BY 是否全局排序,只有一个Reduce任务?6.SORT BY 是否全局排序?7.hive是否支持exists?8.Hive不支持所有非等值的连接,为什么?1 基本的Select 操作SELECT [ALL | DISTINCT...原创 2014-04-21 19:41:20 · 294 阅读 · 0 评论 -
HIVE中Join的专题---Join详解
1.什么是等值连接?2.hive转换多表join时,如果每个表在join字句中,使用的都是同一个列,该如何处理?3.LEFT,RIGHT,FULL OUTER连接的作用是什么?4.LEFT或RIGHT join是连接从左边还有右边?Hive表连接的语法支持如下:Sql代码 join_table: table_reference JOIN table_factor [...原创 2014-04-21 19:37:24 · 93 阅读 · 0 评论 -
让你真正明白什么是hive
导读:对于一个事物的认识,存在几种情况1.没有接触,不知道这个事物是什么,所以不会产生任何问题。2.接触了,但是不知道他是什么,反正我每天都在用。3.有一定的了解,不够透彻。那么hive,1.我们对它了解多少?2.它到底是什么?3.hive和hadoop是什么关系?扩展:hbase和hive是什么关系?Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生...原创 2014-04-17 13:43:13 · 229 阅读 · 0 评论 -
Hadoop Hive sql语法详解
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的...原创 2014-04-16 17:30:13 · 149 阅读 · 0 评论 -
转-Hive QL——深入浅出学Hive
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:DDLDDL•建表•删除表•修改表结构•创建/删除视图•创建数据...原创 2014-04-12 10:17:13 · 353 阅读 · 0 评论 -
【转载】Hive 数据倾斜总结
转载:http://www.tbdata.org/archives/2109几个比较特殊的点都提到了,大家可以作为参考。 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这...原创 2014-07-04 16:36:15 · 86 阅读 · 0 评论 -
hive sql 优化
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。 基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from Ajoin...原创 2014-06-12 15:12:31 · 116 阅读 · 0 评论 -
hadoop、hbase、hive版本对应关系
hadoop与HBase版本对应关系:Hbase Hadoop 0.92.0 1.0.00.92.1 1.0.00.92.2 1.0.30.94.0 1.0.20.94.1 1.0.30.94.2 1.0.30.94.3 1.0.40.94.4 1.0.40.94.5 1.0.40.94.9 1.2.00....原创 2014-04-24 13:46:53 · 1459 阅读 · 0 评论