Hive
lixiaotaoplus
share my views
展开
-
hive函数参考手册
hive函数参考手册原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无转载 2014-03-02 00:42:05 · 782 阅读 · 0 评论 -
小程序:DW元数据表血缘关系的实现
随着数据仓库(DW)接入的表和建立的模型增多,元数据管理就变得越来越重要。元数据表血缘关系,俗称“表与表之间的关系”。良好的元数据管理,可以清晰和明确看出每张表和模型之前的关系。在没有工具之前,只能依靠手工维护,一旦脚本发生变化,手工维护遗漏或不及时的话,就会造成关系不准确。通过工具,当表数量上百、上千张的时候,通过分析表与表“血缘关系”,就能清楚知道每张表之间的关系,及时定位和溯源问题。 本文也提供了解析sql的思路和方法。原创 2016-10-17 23:28:22 · 13326 阅读 · 5 评论 -
hive 查看版本号
hive 查看版本号 hive> hive.hwi.war.file原创 2016-03-14 09:10:16 · 15393 阅读 · 2 评论 -
Hive "行转列"和"列转行"
在HIVE实际开发过程中,我们会遇到“行转列”和“列转行”的场景。比如:1、 需要取“订单号”对应的所有商品“SKU号”,商品“sku号”放在一列,即从table1查询出table2;2、 当商品“sku号”均在一列的时候,需要查询每个“sku号”对应的“订单号”,即从table2查询出table1。table1:order_iditem_sku原创 2015-02-23 15:51:06 · 6613 阅读 · 0 评论 -
hive 获取每个城市30%的订单
使用hive,获取每个城市30%的订单。笔者第一反应,是使用row_number()函数解决这个问题。但是row_number()是用来排序的,获取30%的订单还需要额外进行一次join。原创 2016-03-02 11:07:01 · 3024 阅读 · 1 评论 -
hive load文件第一个字段为NULL
在hive中,通常需要加载外部数据源。load文件时,第一个字段会出现NULL。例如: 1、执行load语句: LOAD DATA LOCAL INPATH ‘test.txt’ OVERWRITE INTO TABLE table_name_xxx; 2、结果: 经排查,这种情况通常是上传文件编码问题导致的,解决办法如下: 使用UE或Notepad++,将文件保存为“以UTF-8无BOM原创 2015-07-22 11:09:31 · 1834 阅读 · 0 评论 -
hive 实现job并发执行
hive里,同一sql里,会涉及到n个job,默认情况下,每个job是顺序执行的。 如果每个job没有前后依赖关系,可以并发执行的话,可以通过设置该参数 set hive.exec.parallel=true,实现job并发执行,该参数默认可以并发执行的job数为8。原创 2015-07-04 19:50:30 · 7011 阅读 · 1 评论 -
hive 处理敏感字段
hive使用regexp_replace函数,处理敏感字段。原创 2015-03-02 18:10:16 · 6977 阅读 · 0 评论 -
Hive异常:UDFArgumentTypeException No argument is expected
背景:今日在某集市执行一hivesql,sql没有问题,在数据仓库里执行没有问题。但是在某集市执行后,一直提示UDFArgumentTypeException No argument is expected,很蛋疼。其中,这个sql涉及到到row_number()、regexp_replace等函数。分析:经sql分段排查,是由于使用到row_number()函数才报错原创 2015-02-12 15:07:05 · 11383 阅读 · 0 评论 -
hive返回星期几的方法
熟悉hive的人都知道,在原生版本中,目前并没有返回星期几的函数。为了解决这个问题,除了利用java自己编写udf外,也可以利用现有hive函数实现。原创 2014-12-30 16:49:54 · 16251 阅读 · 0 评论 -
hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b转载 2014-03-05 09:03:09 · 642 阅读 · 0 评论 -
一道HIVE UDF笔试题-解析url字符串的主域部分
HIVE UDF案例。编写UDF,获取URL字符串的主域部分原创 2018-06-04 00:45:31 · 975 阅读 · 0 评论