博客专栏  >  数据库   >  Hive实战

Hive实战

本人从事Hadoop+Hive+HBase+Impala+Greenplum方面的开发和研究,努力成为大数据方面的专家。

关注
11 已关注
19篇博文
  • 新一代Hive客户端工具:Beeline

    Hive客户端工具后续将使用Beeline 替代HiveCLI ,并且后续版本也会废弃掉HiveCLI 客户端工具。 Beeline是Hive新的命令行客户端工具。Beeline是从 Hive 0.1...

    2016-08-17 10:24
    3485
  • 使用Hive自定义函数生成UUID随机字符串函数

    package com.zy.hive.udf;import java.util.UUID;import org.apache.hadoop.hive.ql.exec.Description;impo...

    2016-08-26 15:56
    1567
  • Hive性能优化

    架构层面优化: l  分表 l  合理利用中间结果集,避免查过就丢的资源浪费,减低Hadoop的IO负载 l  常用复杂或低效函数尽量不用或拆分成其他实现方式,如count(distinct) ...

    2016-05-24 10:23
    3000
  • Hive ORC和Parquet

    相比传统数据库的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作,尤其是在数据列很多,但每次操作仅针对若干列进行查询和计算的情景,列式存储引擎的性价比更高。 目前在开源实现中,最有名的列式存...

    2016-05-21 22:19
    13437
  • Hive分析窗口函数之GROUPING SETS,CUBE和ROLLUP

    这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计。 环境信息: Hive版本为apache-hive-0.14.0-bin Hadoop版本为hadoop-2.6....

    2016-04-04 18:06
    1560
  • Hive分析窗口函数之LAG,LEAD,FIRST_VALUE和LAST_VALUE

    环境信息: Hive版本为apache-hive-0.14.0-bin Hadoop版本为hadoop-2.6.0 Tez版本为tez-0.7.0 创建表: create tablewindows...

    2016-04-04 18:02
    3691
  • Hive分析窗口函数之CUME_DIST和PERCENT_RANK

    两个序列分析函数不是很常用,这里也介绍一下。 环境信息: Hive版本为apache-hive-0.14.0-bin Hadoop版本为hadoop-2.6.0 Tez版本为tez-0.7.0 ...

    2016-04-04 18:00
    2195
  • Hive分析窗口函数之NTILE,ROW_NUMBER,RANK和DENSE_RANK

    继续介绍几个序列函数: NTILE,ROW_NUMBER,RANK和DENSE_RANK 环境信息: Hive版本为apache-hive-0.14.0-bin Hadoop版本为hadoop-2...

    2016-04-04 16:34
    1633
  • Hive分析窗口函数之SUM,AVG,MIN和MAX

    Hive中提供了很多的分析函数,用于完成负责的统计分析。 本文先介绍SUM、AVG、MIN、MAX这四个函数。 环境信息: Hive版本为apache-hive-0.14.0-bin Hadoop...

    2016-04-04 16:30
    1645
  • Hive索引

    1、        Hive索引概述 Hive的索引目的是提高Hive表指定列的查询速度。 没有索引时,类似'WHERE tab1.col1 = 10' 的查询,Hive会加载整张表或分区,然后处理所...

    2015-06-27 17:23
    1140
  • Hive中将查询结果导出到指定分隔符的文件中

    在Hive0.11.0版本中新引进了一个新的特性,当用户将Hive查询结果输出到文件中时,用户可以指定列的分割符,而在之前的版本是不能指定列之间的分隔符。 在Hive0.11.0之前版本如下使用,无法...

    2015-06-27 18:47
    2714
  • Hive中行列转换

    1、演示多列转为单行 数据文件及内容: student.txt xiaoming|english|92.0 xiaoming|chinese|98.0 xiaoming|math|89.5 huahu...

    2015-07-08 23:30
    3515
  • Hive数据去重

    Hive数据去重 insert overwrite table ta_customers       select t.ta_id,t.ta_date from          ( s...

    2015-10-25 09:36
    1536
  • Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/ql/CommandNeedRetr

    问题如下: [hadoop@gpmaster hadoop]$ hive Exception in thread "main" java.lang.NoClassDefFoundError: or...

    2016-01-11 20:48
    1734
  • java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.ppd.ExprWalkerInfo.getConvertedNode

    环境: Hadoop 2.6.0 Hive 1.1.1 JDK 1.7.0_60 操作系统:Red Hat Enterprise Linux Server release 6.0 (Santi...

    2016-02-12 10:00
    1405
  • 使用Hive实现时间拉链功能

    背景: 在数据仓库的数据模型设计过程中,经常会遇到如下的业务需求: 1. 表的数据量很大,大几千万或上亿; 2. 表中的部分字段会被update更新操作,如用户的上级领导,产品的描述信息,订单的状态...

    2016-02-13 17:49
    3611
  • java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected

    环境: Linux:      Red Hat Enterprise Linux Server release 6.0 (Santiago) Java:      java version "...

    2015-10-22 22:51
    3402
  • 使用Hive的正则解析器RegexSerDe分析nginx日志

    1、环境: hadoop-2.6.0 + apache-hive-1.2.0-bin 2、使用Hive分析nginx日志,网站的访问日志部分内容为: cat /home/hadoop/hivet...

    2015-06-09 18:01
    1329
  • Hive中实现增量更新

    保险公司有一个表记录客户的信息,其中包括有客户的id,name和age(为了演示只列出这几个字段)。 创建Hive的表: create table customer ( id int, age tin...

    2015-06-22 22:18
    3013

img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部