- 博客(5)
- 收藏
- 关注
转载 Hive UDTF开发指南
Hive UDTF开发指南 在这篇文章中,我们将深入了解用户定义表函数(UDTF),该函数的实现是通过继承org.apache.Hadoop.hive.ql.udf.generic.GenericUDTF这个抽象通用类,UDTF相对UDF更为复杂,但是通过它,我们读入一个数据域,输出多行多列,而UDF只能输出单行单列。 代码 文章中所有的代码可以
2017-12-13 11:32:53 254
转载 hive中UDTF编写和使用(转)
hive中UDTF编写和使用(转) 1. UDTF介绍 UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。 2. 编写自己需要的UDTF 继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF,实现initiali
2017-12-13 11:29:54 264
转载 Hive-UDAF开发指南
refer to:http://www.cnblogs.com/ggjucheng/archive/2013/02/01/2888051.html 介绍 hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数
2017-12-13 10:27:57 266
翻译 hadoop理论知识
一、6层架构 1、数据源 DataSource 生产线上的数据 2、数据仓库 dataMars ---Hbase Hive 其中一部分数据是我们感兴趣或者需要的,通过ETL过程,放到特定的数据库中。 3、数据探索|分析 data exploration 对数据进行指标分析(简单粗略的加工):平均 最小 最大 方差 或者SQL进行查询等 目标跟手段都比较清晰 4、数据挖掘 data
2017-12-06 10:57:24 325
翻译 hbase基础知识
什么情况下需要使用hbase 成熟的数据分析主题,查询模式已经确定且不轻易改变; ---查询语句一变化,hbase的结构会发生翻天覆地的变化 传统的数据库已经无法承受负荷,高速插入,大量读取; 适合海量的,但同时也是简单的操作(key-value); hbase迎接挑战: 天生面向时间查询(以时间戳存储) 基于行健的查询异常快速,特别是最近的
2017-12-06 10:47:38 191
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人