大数据-hive
两榜进士
if you are not inside,you are outside.
展开
-
hive语法
创建表创建员工表[java] view plain copycreate table t_emp ( id int, name string, age int, dept_name string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY转载 2016-09-30 10:34:14 · 966 阅读 · 0 评论 -
hive概念、安装和配置、常见异常
一、概念Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将SQL转换为MapReduce程序hive的元数据- Hive将元数据储存在数据库中(metastore),支持mysql,derby,oracle等数据库。- Hive中的元数据包括表的名字,表的列和分区及其属性,表的转载 2016-09-12 15:47:24 · 571 阅读 · 0 评论 -
Hive中Order by和Sort by的区别是什么?
Hive基于HADOOP来执行分布式程序的,和普通单机程序不同的一个特点就是最终的数据会产生多个子文件,每个reducer节点都会处理partition给自己的那份数据产生结果文件,这导致了在HADOOP环境下很难对数据进行全局排序,如果在HADOOP上进行order by全排序,会导致所有的数据集中在一台reducer节点上,然后进行排序,这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败转载 2017-02-28 15:13:45 · 2292 阅读 · 0 评论 -
Lateral View语法
描述lateral view用于和split, explode等UDTF一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF,UTDF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表。 例子假设我们有一张表pageAds,它有两列数据,第一列转载 2017-02-28 15:43:06 · 29768 阅读 · 0 评论 -
浅析hive严格模式(strict mode)
在hive中提供了一种“严格模式”的设置来阻止用户执行可能会带来未知不好影响的查询。 设置属性hive.mapred.mode 为strict能够阻止以下三种类型的查询:1、 除非在where语段中包含了分区过滤,否则不能查询分区了的表。这是因为分区表通常保存的数据量都比较大,没有限定分区查询会扫描所有分区,耗费很多资源。Table: logs(…) parti转载 2017-02-28 16:55:17 · 1107 阅读 · 0 评论 -
Hive教程之metastore的三种模式
http://www.micmiu.com/bigdata/hive/hive-metastore-config/转载 2017-02-11 11:01:29 · 999 阅读 · 0 评论 -
HIVE中MAPJOIN可以使用的场景分析
最近开发中遇到几种应用,刚好使用MAPJOIN来解决实际的问题。应用共同点如下:1: 有一个极小的表2: 需要做不等值join操作(a.x 这种操作如果直接使用join的话语法不支持不等于操作,Hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积,数据异常增大,速度会很慢。甚至会任务无法跑成功~根据mapjoin的计算原理,MAP转载 2017-02-23 20:49:51 · 581 阅读 · 0 评论