hive
文章平均质量分 72
Chuck_lee
网站分析-hadooper-pythoner
展开
-
HIVE简介
什么是Hive•Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。•本质是将SQL转换为MapReduce程序 第二部分:为什么使用Hive面临的问题 人员学习成本太高 项目周期要求太短 我只是需要一个简单的环境 MapReduce 如何搞定原创 2014-02-27 17:35:20 · 604 阅读 · 0 评论 -
hive mapjoin使用
今天遇到一个hive的问题,如下hive sql:select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报原创 2014-05-14 11:40:03 · 647 阅读 · 0 评论 -
HIVE优化提示-如何写好HQL
一、 Hive join优化1. 尽量将小表放在join的左边,我们这边使用的hive-0.12.0,所以是自动转化的,既把小表自动装入内存,执行map side join(性能好), 这是由参数hive.auto.convert.join=true 和hive.smalltable.filesize=25000000L)参数控制(默认是25M),如果表文件大小在25M左右,可原创 2014-08-15 17:24:07 · 2134 阅读 · 0 评论 -
Hive的multi-distinct可能带来性能恶化之案例优化
目前hive的版本支持multi-distinct的特性,这个在用起来比较方便,但是在此特性下面无法开启防数据倾斜的开关(set hive.groupby.skewindata=true),防止数据倾斜的参数只在单distinct情况下会通过一个job来防止数据的倾斜。multi-distinct使用起来方便的同时也可能会带来性能的不优化,如日志中常常统计pv,Uv,独立ip数,独立session原创 2014-11-10 13:45:15 · 860 阅读 · 0 评论 -
HIVE优化总结第二弹
一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个ma原创 2014-11-11 23:28:55 · 666 阅读 · 0 评论 -
Hive 中内部表与外部表的区别与创建方法
先来说下Hive中内部表与外部表的区别: Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。 需要注意的是传统数据库对表数据验证是 schema on wr转载 2014-10-29 08:51:28 · 673 阅读 · 0 评论 -
HIVE优化总结
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时转载 2014-11-05 16:49:32 · 592 阅读 · 0 评论 -
RCFile文件格式
在当前的基于Hadoop系统的数据仓库中,数据存储格式是影响数据仓库性能的一个重要因素。Facebook于是提出了集行存储和列存储的优点于一身的RCFile文件存储格式,在Facebook公司内部,其数据仓库的文件存储格式都是RCFile; 我们现在正在进入一个大数据时代,何为“大数据”?它不仅仅就是指海量的数据,也包括如何高效的存储、管理和使用这写数据。在Hadoop运行环境中原创 2015-01-28 11:36:22 · 1740 阅读 · 0 评论 -
Stinger Initiative:让Hive提速100倍
摘要:在Hadoop生态圈,没有一家公司有比Hortonworks有更高的统治力,在Apache Hadoop社区,他占据最多的PMC和committer。他和Cloudera是社区利益最主要的争夺者。Stinger Initiative是一个彻底提升Hive效率的工具,与此同时,Hortonworks还在Apache孵化着多个项目,进一步扩大领地。自从2007年Facebook提出A转载 2014-12-26 17:09:22 · 1218 阅读 · 0 评论 -
hive 配置参数详细说明
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默原创 2015-01-15 17:07:39 · 739 阅读 · 0 评论 -
HIVE Explain语法
Hive提供EXPLAIN命令,显示查询的执行计划。语法如下:EXPLAIN [EXTENDED] queryEXPLAIN语句使用EXTENDED,提供执行计划关于操作的额外的信息。这是典型的物理信息,如文件名。Hive查询被转换成序列(这是一个有向无环图)阶段。这些阶段可能是mapper/reducer阶段,或者做metastore或文件系统的操作,如移动和重命名的阶段。原创 2014-12-30 09:49:48 · 994 阅读 · 0 评论 -
HIVE小贴士-版本升级全过程
第一步:将原有的hive改名为hive_backup第二步:将原有hive中的conf文件夹全部复制到新版本hive中第三步:修改hive-conf.sh 文件 添加HADOOP_HOME 第四步:相关第三方的包要转移到新的hive版本lib目录下第五步:首先要把之前的10000端口对应的线程kill掉,然后执行 $H原创 2014-03-31 16:12:31 · 1018 阅读 · 0 评论 -
HIVE如何使用自定义函数
如何在HIVE中使用自己定义的函数,可以有几种方式:1.在HIVE会话中add 自定义函数的jar文件,然后创建function,继而使用函数2.在进入HIVE会话之前先自动执行创建function,不用用户手工创建3.把自定义的函数写到系统函数中,使之成为HIVE的一个默认函数,这样就不需要create temporary function------------------原创 2014-03-07 19:23:19 · 1884 阅读 · 0 评论 -
HIVE的安装与配置
Hadoop环境介绍•Hadoop安装路径•/home/test/Desktop/hadoop-1.0.0/•Hadoop 元数据存放目录•/home/test/data/core/namenode•Hadoop 数据存放路径•/home/test/data/core/datanodeHive环境规划•Hive安装路径原创 2014-02-27 17:45:52 · 921 阅读 · 0 评论 -
Hive QL
第一部分:DDLDDL•建表•删除表•修改表结构•创建/删除视图•创建数据库•显示命令建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT tab原创 2014-02-27 17:51:07 · 616 阅读 · 0 评论 -
Hive 内建操作符与函数开发
第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE原创 2014-02-27 17:47:32 · 775 阅读 · 0 评论 -
Hive JDBC
第一部分:搭建Hive JDBC开发环境搭建:Steps•新建工程hiveTest•导入Hive依赖的包•Hive 命令行启动Thrift服务•hive --service hiveserver & 第二部分:基本操作对象的介绍Connection•说明:与Hive连接的Connection原创 2014-02-27 17:49:16 · 1268 阅读 · 0 评论 -
Hive 高级编程
第一部分:产生背景产生背景•为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括:•文件格式:Text File,Sequence File•内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text•用户提供的 map/reduce 脚本:不管什么语言,利用 s原创 2014-02-27 17:50:05 · 620 阅读 · 0 评论 -
hive 优化
第一部分:Hadoop 计算框架的特性什么是数据倾斜•由于数据的不均衡原因,导致数据分布不均匀,造成数据大量的集中到一点,造成数据热点Hadoop框架的特性•不怕数据大,怕数据倾斜•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的原创 2014-02-27 17:53:25 · 764 阅读 · 0 评论 -
Hive体系结构
第一部分:概念 概念•用户接口:用户访问Hive的入口•元数据:Hive的用户信息与表的MetaData•解释器:分析翻译HQL的组件•编译器:编译HQL的组件•优化器:优化HQL的组件第二部分:Hive架构与基本组成架构图基本组成•用户接口,包括 CLI,JDBC/ODBC,WebUI•元数据存储,通原创 2014-02-27 17:54:32 · 735 阅读 · 0 评论 -
Hive的原理
第一部分:Hive原理为什么要学习Hive的原理•一条Hive HQL将转换为多少道MR作业•怎么样加快Hive的执行速度•编写Hive HQL的时候我们可以做什么•Hive 怎么将HQL转换为MR作业•Hive会采用什么样的优化方式Hive架构&执行流程 Hive执行流程•编译器将一个Hive QL转换操作符•操原创 2014-02-27 17:55:35 · 1480 阅读 · 0 评论 -
hive参数
hive.exec.max.created.files•说明:所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明:是否为自动分区•默认值:falsehive.mapred.reduce.tasks.speculative.executio原创 2014-02-27 17:34:17 · 656 阅读 · 0 评论 -
Hive Shell 基本操作
第一部分:Hive bin下脚本介绍Hive bin下的脚本介绍Exthivehive-config第二部分:Hive Shell 基本操作Hive 命令行•hive [-hiveconf x=y]* []* [|] [-S]•-i 从文件初始化HQL•-e 从命令行执行指定的HQL• -f 执原创 2014-02-27 17:51:54 · 2804 阅读 · 0 评论 -
hive数据类型-摘录至HIVE WIKI
列类型Hive支持的数据类型如下:原生类型:TINYINTSMALLINTINTBIGINTBOOLEANFLOATDOUBLESTRINGBINARY (Hive 0.8.0以上才可用)TIMESTAMP (Hive 0.8.0以上才可用)复合类型:arrays: ARRAYmaps: MAPstructs: STRUCTunion: UNIONTYPE时间戳原创 2014-12-30 17:01:51 · 624 阅读 · 0 评论