hive
小陌sdauzyh
come on
展开
-
Hive metastore三种存储方式
测试环境下Hive总出问题,metastore的配置有问题。抽了点时间,把Hive的meta数据几种存储方式都配置了下。Hive的meta 数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore 。一、使用derby数据库存储元数据。这种方式是最简单的存储方式,只需转载 2015-08-12 09:19:55 · 458 阅读 · 0 评论 -
HIVE简单相关语句
1.将Hive数据中的数据导出并保存到文件中将目录切换到你想要保存的位置 cd /home/--使用命令: HIVE -S -e 'select * from table_name'>**.csv 一个‘>’表示重写文件 两个‘>>’表示向文件中追加数据2.将本地文件的数据导入到HIVE数据仓库中 使用命令:load data local in原创 2016-01-27 17:11:47 · 344 阅读 · 0 评论 -
HIVE实例说明join ,semi join, outer join,anti join的区别
现在有两张表table_a和table_b ,其中每张表的数据如下 table_a 表中数据: Id Name Score 1 a 90 2 b 80 3 c原创 2016-01-26 15:25:11 · 4174 阅读 · 0 评论 -
利用exp工具进行定时备份
转自:http://blog.csdn.net/huang_xw/article/details/5824758翻译 2015-12-23 14:34:57 · 684 阅读 · 0 评论 -
Hive UDAF和UDTF实现group by后获取top值
先自定义一个UDAF,由于udaf是多输入一条输出的聚合,所以结果拼成字符串输出,代码如下:public class Top4GroupBy extends UDAF { //定义一个对象用于存储数据 public static class State { private Map counts; private int limit翻译 2015-12-24 17:13:32 · 500 阅读 · 0 评论 -
hive中UDF和UDAF使用说明
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。 一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text File,Sequence File b)内存中的数据格式: Java Integer/Str转载 2015-11-18 21:09:32 · 488 阅读 · 0 评论 -
hive函数参考手册
原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败,因为无效的语法。 SQL使用”=”,不使用”==”。转载 2015-10-10 16:27:16 · 379 阅读 · 0 评论 -
Hive日期格式转换用法
1.日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, stringformat]) 返回值: string说明: 转化UNIX时间戳(从1970-01-0100:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixtime(1323308943,'转载 2015-09-29 10:26:30 · 4792 阅读 · 0 评论 -
hive从查询中获取数据插入到表或动态分区
Hive的insert语句能够从查询语句中获取数据,并同时将数据Load到目标表中。现在假定有一个已有数据的表staged_employees(雇员信息全量表),所属国家cnty和所属州st是该表的两个属性,我们做个试验将该表中的数据查询出来插入到另一个表employees中。INSERT OVERWRITE TABLE employeesPARTITION (country = '中国转载 2015-10-10 16:31:03 · 690 阅读 · 0 评论 -
hive中UDF的编写
如何编写UDF我就不赘述了,网上资料大把。贴一个参考链接直接略过。主要讨论两个点,是开发过程中遇到的难点。1. UDF读取外部资源。2. 外部资源存放位置。为什么会遇到这两个问题?开发UDF的目的就是为了扩展数据库一些没有的功能。常用功能例如count,sum这些,但是偶尔会遇到一些复杂的计算数据库没有直接实现的函数,解决方法一是直接读取数据然后用程序去转载 2015-07-24 10:57:24 · 917 阅读 · 0 评论 -
**[Hive]用concat_w实现将多行记录合并成一行**
[Hive]用concat_w实现将多行记录合并成一行建表如下:创建商品与促销活动的映射表1建表语句create table a(id String,price String);数据表的记录如下:5112 960024 5112 960025 5112 960026 5112 960027 5112 960028 5113 960043 5113 960044 51转载 2015-11-04 22:07:29 · 7208 阅读 · 0 评论 -
HIVE服务启动与HIVE命令冲突解决办法
HIVE服务启动与HIVE命令冲突解决办法原创 2015-07-22 11:10:53 · 9307 阅读 · 0 评论 -
hive UDF 分享 通过IP地址获取IDC//省份/城市的信息http://my.oschina.net/wangjiankui/blog/263994
简述: 简单的2分查找算法,根据IP地址定位IP所属的IP段,然后获取IP段的IDC/省份/城市的信息。输入:IP地理信息文件,一般地址库拿到后需要格式化一下,参考: 1. 如果省份是null 或者 '' ,city是null或者'' =》 省份=其他 and 城市=其他 2. 省份非空且为直辖市,但是城市非直辖市 = 》 城市=直辖市 3. 省份非空转载 2015-07-23 09:16:59 · 2813 阅读 · 1 评论 -
hive分组排序函数-row_number() over&nbs
语法:row_number() over (partition by 字段a order by 计算项b desc ) rank –这里rank是别名partition by:类似hive的建表,分区的意思;order by :排序,默认是升序,加desc降序;这里按字段a分区,对计算项b进行降序排序实例:要取top10品牌,各品牌的top10渠道,各品牌的top10渠道中各渠道的top10档期 1转载 2016-09-12 18:55:16 · 5600 阅读 · 1 评论