hive
qinzl_1
这个作者很懒,什么都没留下…
展开
-
hive SerDe实现自定义序列化
源地址:http://blog.csdn.net/dajuezhao/article/details/5753791一、背景1、当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。2、Hive的转载 2014-08-19 15:55:39 · 608 阅读 · 0 评论 -
Hive 随谈(四)– Hive QL
源地址:http://www.chinacloud.cn/show.aspx?id=3278&cid=12转载 2014-08-26 10:47:58 · 348 阅读 · 0 评论 -
hive原生和复合类型的数据加载和使用
源地址:http://www.cnblogs.com/ggjucheng/archive/2013/01/31/2868941.html转载 2014-08-26 16:17:26 · 351 阅读 · 0 评论 -
Hive 随谈(三)– Hive 和数据库的异同
源地址:http://www.chinacloud.cn/show.aspx?id=3279&cid=12转载 2014-08-26 10:45:25 · 438 阅读 · 0 评论 -
Jackson 框架,轻易转换JSON
源地址:http://www.cnblogs.com/hoojo/archive/2011/04/22/2024628.html转载 2014-08-26 17:47:09 · 302 阅读 · 0 评论 -
Hive UDAF和UDTF实现group by后获取top值
源地址:http://www.linuxidc.com/Linux/2012-07/66503.htm先自定义一个UDAF,由于udaf是多输入一条输出的聚合,所以结果拼成字符串输出,代码如下:public class Top4GroupBy extends UDAF { //定义一个对象用于存储数据 public static class State转载 2014-08-27 14:45:09 · 393 阅读 · 0 评论 -
hive使用UDTF函数实现单列转多行输出
hive本身提供explode函数实现这种功能,explo原创 2014-08-14 16:06:49 · 739 阅读 · 0 评论 -
Hive内置row_number
原文地址:http://blog.csdn.net/yangjun2/article/details/9339641Hive-0.11.0中内置row_number函数org.apache.hadoop.hive.ql.exe.FunctionRegistry registerHiveUDAFsAsWindowFunctions();registerWindowFu转载 2014-09-11 10:39:10 · 420 阅读 · 0 评论 -
在Hive中创建使用自定义函数
在Hive中创建使用自定义函数 目录 在Hive中创建使用自定义函数 .............................................................................................. 1 实际情况 ...................................转载 2014-08-15 16:38:23 · 707 阅读 · 0 评论 -
Hive自定义函数(generic)
原文地址:http://www.haogongju.net/art/1959415转载 2014-08-30 17:47:09 · 495 阅读 · 0 评论 -
Hive中的条件函数:If、Coalesce、Case
Hive中的条件函数:If、Coalesce、Case (2013-01-08 14:41:41转载▼Conditional Functions in HiveHive supports three types of conditional functions. These functions are listed below:IF( Test Co转载 2014-09-03 19:06:15 · 596 阅读 · 0 评论 -
hive 行列转换总结
原文地址:http://www.07net01.com/linux/hivexingliezhuanhuanzongjie_654296_1381813421.html转载 2014-08-25 12:07:52 · 324 阅读 · 0 评论 -
map和reduce 个数的设定 (Hive优化)经典
http://blog.sina.com.cn/s/blog_9f48885501017dua.html一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.转载 2015-03-01 23:06:35 · 323 阅读 · 0 评论 -
MapReduce:默认Counter的含义
http://langyu.iteye.com/blog/1171091 MapReduce Counter为提供我们一个窗口:观察MapReduce job运行期的各种细节数据。今年三月份期间,我曾经专注于MapReduce性能调优工作,是否优化的绝大多评估都是基于这些Counter的数值表现。MapReduce自带了许多默认Counter,可能有些朋友对它们有些疑问,现在我分析转载 2015-03-01 22:40:27 · 250 阅读 · 0 评论 -
hive优化数据倾斜的解决方法
转自:http://blog.csdn.net/lpxuan151009/article/details/7980509发生数据倾斜时,通常的现象是:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由转载 2015-03-03 11:33:50 · 373 阅读 · 0 评论 -
深入浅出数据仓库中SQL性能优化之Hive篇
转自:http://www.csdn.net/article/2015-01-13/2823530一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR Jo转载 2015-03-06 11:38:53 · 268 阅读 · 0 评论 -
hive 处理小文件
原文地址:http://blog.csdn.net/yfkiss/article/details/8590486当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,转载 2014-08-25 22:37:51 · 361 阅读 · 0 评论 -
hive 优化
源地址:Hive优化总结---by 食人花 优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率转载 2014-08-25 22:33:17 · 324 阅读 · 0 评论 -
hive中自定义函数(UDAF)实现多行字符串拼接为一行
原文di函数如何使用:hive> desc concat_test;OKa intb stringhive> select * from concat_test;OK1 good2 other1 nice1 hellohive> select a,co2014-09-19 15:52:12 · 382 阅读 · 0 评论 -
Hive-0.5中SerDe概述
源地址:http://blog.csdn.net/dajuezhao/article/details/5753791转载 2014-08-25 17:27:01 · 264 阅读 · 0 评论 -
How-to: Use a SerDe in Apache Hive
Apache Hive is a fantastic tool for performing SQL-style queries across data that is often not appropriate for a relational database. For example, semistructured and unstructured data can be queried转载 2014-08-25 19:52:47 · 466 阅读 · 0 评论 -
hive自定义分隔符和处理Apache日志
源地址:http://liubingwwww.blog.163.com/blog/static/304851072011112262557997/转载 2014-08-25 11:52:10 · 547 阅读 · 0 评论 -
Hive 随谈(五)– Hive 优化
源地址:http://www.chinacloud.cn/show.aspx?id=3277&cid=12Hive 针对不同的查询进行了优化,优化可以通过配置进行控制,本文将介绍部分优化的策略以及优化控制选项。列裁剪(Column Pruning)在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询:SELECT a,b FROM T WHERE转载 2014-08-26 10:48:36 · 303 阅读 · 0 评论 -
Hive 随谈(六)– Hive 的扩展特性
源地址:http://www.chinacloud.cn/show.aspx?id=3276&cid=12转载 2014-08-26 10:49:45 · 262 阅读 · 0 评论 -
写好Hive 程序的五个提示
源地址:http://www.chinacloud.cn/show.aspx?id=3275&cid=12转载 2014-08-26 10:49:20 · 285 阅读 · 0 评论 -
Hive 中的复合数据结构简介以及一些函数的用法说明
原文地址:http://my.oschina.net/leejun2005/blog/120463转载 2014-08-25 10:59:55 · 500 阅读 · 0 评论 -
Hive中的InputFormat、OutputFormat与SerDe
原文地址:http://www.coder4.com/archives/4031前言Hive中,默认使用的是TextInputFormat,一行表示一条记录。在每条记录(一行中),默认使用^A分割各个字段。在有些时候,我们往往面对多行,结构化的文档,并需要将其导入Hive处理,此时,就需要自定义InputFormat、OutputFormat,以及SerDe了。首先转载 2014-08-25 17:46:38 · 712 阅读 · 0 评论 -
hive 数据倾斜
hadoop job解决大数据量关联时数据倾斜的一种办法转载 2014-08-25 23:09:01 · 359 阅读 · 0 评论 -
Hive 数据倾斜总结
转载:http://www.tbdata.org/archives/2109几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的转载 2014-08-25 23:13:25 · 287 阅读 · 0 评论 -
Hive 随谈(一)– Hive 入门
源地址:http://www.chinacloud.cn/show.aspx?id=3276&cid=12转载 2014-08-26 10:45:17 · 350 阅读 · 0 评论 -
Hive 随谈(二)– Hive 结构
源地址:http://www.chinacloud.cn/show.aspx?id=3280&cid=12转载 2014-08-26 10:44:38 · 315 阅读 · 0 评论 -
Hive 自定义SerDe时生成ObjectInspector三种方式
目前看不懂源码,从不同的途径看到的ObjectInspectorshe原创 2014-08-26 15:05:01 · 1254 阅读 · 0 评论 -
hive UDTF 解析json格式数据
原文地址:http://cache.baiducontent.com/c?m=9d78d513d9991aeb0ffa940f55578a3a0e55f0744ca1c7627fc3e23f84105f550026bdb47d645646c4c40f7a1cee1400bfb26b65377573f1c1df883c9be8cf787cd53034064ddb1e05d36ef48d116e963转载 2014-08-25 11:46:42 · 1380 阅读 · 0 评论 -
Hive 库、表、字段、交互式查询的基本操作
转自:http://my.oschina.net/leejun2005/blog/271631目录[-]1、命令行操作2、表操作3、列操作4、查看变量5、一个完整的建库、表例子6、常用语句示例7、Refer:1、命令行操作(1)打印查询头,需要显示设置:set hive.cli.print.header=t转载 2015-03-10 15:22:22 · 635 阅读 · 0 评论