Hive
文章平均质量分 86
-早起的码农
这个作者很懒,什么都没留下…
展开
-
hive ORC 文件存储格式
ORC file format,它的全名是Optimized Row Columnar (ORC) file format。使用ORC文件格式提升Hive读、写与处理数据的性能。 存储方式为数据按行分块,每块按照列存储 压缩快 快速列存取 效率比rcfile高,是rcfile的改良版本 具体可以参考官网: https://cwiki.apache.org/co原创 2015-10-27 15:13:23 · 3310 阅读 · 5 评论 -
Hive ORC数据格式的MapReduce Shuffle
1,mr代码如下package com.test.hadoop;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apach原创 2017-03-03 17:01:25 · 1511 阅读 · 0 评论 -
Hive ORC数据格式的MapReduce读写
1,先上代码package com.test.hadoop;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apache.原创 2016-07-27 18:22:45 · 11762 阅读 · 3 评论 -
基于Hive的数据仓库架构
用hadoop和hive有一段时间了,是我设计的基于hive的数据仓库架构,对于处理互联网日志比较合适原创 2011-08-28 22:08:14 · 5242 阅读 · 5 评论 -
Hive深入应用总结
记录下官方文档上讲的比较少,觉得有用的hive相关知识,绝对干货。命令:表明tb1describe extended tb1;返回表tb1字段,存储格式类型,位置,修改时间等等关于表的详细信息show functions;显示可以用的函数列表,包括可用的udf函数。describe function length; 返回length函数的说明,执行输出length(str)原创 2012-06-02 13:31:44 · 3610 阅读 · 1 评论 -
hadoop和hive的实践应用(二)——基于Hadoop的数据仓库工具hive搭建
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 我这里主要用于统计处理结构化的文本数据,处理后,存入结构化数据库中展现给用户。 安装: 1,下载wget http://labs.renren.co原创 2011-05-24 11:36:00 · 7535 阅读 · 0 评论 -
hadoop和hive的实践应用(三)——hive的基本应用
前面我已经搭好了hadoop和hive环境,并且在hive中创建了表page,将数据load了进去。现在我想从这个表中统计每个url的流量,并放到其他关系中数据库中或者展现在页面上,怎么办?去官网是看一下,不难发现可以用java ,python,php都可以实现,下面就用python 简单的写了写from hive_service import ThriftHivefrom hive_service.ttypes import HiveServerExceptionfrom thrift import Th原创 2011-05-26 11:37:00 · 3512 阅读 · 1 评论 -
hive中lzo文件map不分块问题
1,确保创建索引$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.10.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/flog 2,创建hive表时需要在后面指定format格式SET FILEFORMAT原创 2012-02-24 15:51:44 · 2507 阅读 · 0 评论 -
HIVE UDAF和UDTF实现group by后获取top值
先自定义一个UDAF,由于udaf是多输入一条输出的聚合,所以结果拼成字符串输出,代码如下:public class Top4GroupBy extends UDAF { //定义一个对象用于存储数据 public static class State { private Map counts; private int limit;原创 2012-07-26 14:52:57 · 4912 阅读 · 0 评论 -
hive UDF实现一个字符串解码函数
其实hive的udf 是比较容易实现的,只需要继承UDF,实现其evaluate()方法,代码如下。@Description(name = "decoder_url", value = "_FUNC_(url [,code][,count]) - decoder a URL from a String for count times using code as encoding schem原创 2012-07-26 15:31:44 · 6109 阅读 · 1 评论 -
Mapreduce中的RCFile输入RCFileInputFormat实现及其应用
基于旧的mapreduce的api的输入格式在hive中已有实现,在org.apache.hadoop.hive.ql.io下,下面代码是根据其源码自己实现的新mapreduce api接口。上代码:RCFileInputFormat.java import java.io.IOException;import org.apache.hadoop.hive.serde2.columnar.Byt原创 2012-08-26 20:11:00 · 5162 阅读 · 1 评论 -
hive使用笔记
ALTER TABLE table1 DROP PARTITION (day='2015-07-14');ALTER TABLE table1 ADD COLUMNS (visit int); reflect("java.net.URLDecoder", "decode", url,"UTF-8")CASE WHEN b.user_account is null then 0 else b.us原创 2015-07-15 15:41:25 · 3047 阅读 · 0 评论 -
HIVE全部函数详解
函数名 含义及实例 abs abs(x) - returns the absolute value of x Example: > SELECT abs(0) FROM src LIMIT 1; 0 > SELECT abs(-5) FROM src LIMIT 1; 5 acos acos(x) - returns the原创 2017-09-13 18:04:28 · 17347 阅读 · 1 评论