hive
卡奥斯道
技术时代的你,愿为技术付出
展开
-
SQL实现最近一个周日的date
select date_sub(from_unixtime(unix_timestamp(),'yyyy-MM-dd'), if(pmod(datediff(from_unixtime(unix_timestamp(),'yyyy-MM-dd'), '2019-05-05'), 7) = 0,7,pmod(datediff(from_unixtime(unix_timestamp(),'yyyy-MM-dd'), '2019-05-05'), 7))) as sun原创 2021-04-09 16:48:08 · 329 阅读 · 0 评论 -
hive解析json
select get_json_object('{"shop":{"book":[{"price":43.3,"type":"art"},{"price":30,"type":"technology"}],"clothes":{"price":19.951,"type":"shirt"}},"name":"jane","age":"23"}', '$.shop.book[0].type')原创 2019-05-28 13:47:54 · 415 阅读 · 0 评论 -
csv单元格存在引号引起多引号
处理方式如下:regexp_replace(regexp_replace(field,'(?<=^)\"|\"(?=$)',''),'\"\"','\"') as field分析:可以用notepad++打开观察原创 2019-05-23 18:43:29 · 1516 阅读 · 0 评论 -
count(字段)该字段存有null值,空字符串对结果的影响
SELECTcount(id) as id,count(distinct id) as ids_id,count(id1) as id1,count(distinct id1) as ids_id1 ,count(name) as name1,count(distinct name) as ids_name1from(SELECT '2' as idunion allSEL...原创 2019-05-06 18:15:07 · 4212 阅读 · 0 评论 -
hive拼接两个字段组成json
hive拼接两个字段,一个字段值作为K,另一个字段值作为V,id不唯一,将多行组成json串selectid,concat('{', regexp_replace(cast(sort_array(collect_set(kv)) as string),'(\"\":\"0\"\,)|\\[|\\]','') ,'}') kv from(select id,concat(conc...原创 2019-04-12 11:29:39 · 8619 阅读 · 0 评论 -
count(distinct ) over(partition by order by)替换成size(collect_set() over(partition by order by))
这个函数的大致意思是:在分组内求去重后的数量为什么不用count(distinct ),不支持原因例子:数据准备:SELECT '1' as id ,'201808' as m,'a' as kunion allSELECT '2' as id ,'201808' as m,'a' as kunion allSELECT '1' as id ,'201809' as m,'...原创 2018-09-30 15:32:30 · 11056 阅读 · 1 评论 -
rows between unbounded preceding and current row等,unbounded ,preceding ,following,current row含义详解
unbounded:无界限preceding:从分区第一行头开始,则为 unbounded。 N为:相对当前行向前的偏移量following :与preceding相反,到该分区结束,则为 unbounded。N为:相对当前行向后的偏移量current row:顾名思义,当前行,偏移量为0例子:partition by order by asc/desc rows ...原创 2018-09-30 15:29:52 · 30966 阅读 · 0 评论 -
纯数字去掉前导0
regexp_replace(field,'(?<=^)0+(?=[0-9]*$)','')原创 2018-06-08 10:06:24 · 4317 阅读 · 1 评论 -
hive内置函数大全
一、查看函数 show functions 显示hive下内置所有函数 desc function extended add_months 显示add_months 函数用法二、按首字母排序 hive版本1.1.0-cdh5.7.0.函数 Usage 举例 ! ! a - Logical not No example for !. % a % b ...原创 2018-03-20 17:11:02 · 8690 阅读 · 0 评论 -
Hive分析窗口函数 LAG,LEAD,FIRST_VALUE,LAST_VALUE
转自:http://lxw1234.com/archives/2015/04/190.htm数据准备:cookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3cookie1,2015-04-10 10:50:05,url6cookie1,2015转载 2017-11-16 15:56:58 · 705 阅读 · 0 评论 -
利用hive将数据写入es
转自:https://www.iteblog.com/archives/1858.html在使用前同样需要加入 elasticsearch-hadoop-2.3.4.jar 依赖,具体请参见前文介绍。我们先在Hive里面建个名为iteblog的表,如下:CREATEEXTERNAL TABLEiteblog ( id转载 2017-11-20 14:47:19 · 4508 阅读 · 0 评论 -
hive读取es数据
转自:https://www.iteblog.com/archives/1857.html 本文将介绍如何通过Hive来读取ElasticSearch中的数据,然后我们可以像操作其他正常Hive表一样,使用Hive来直接操作ElasticSearch中的数据,将极大的方便开发人员。本文使用的各组件版本分别为 Hive0.12、Hadoop-2.2.0、ElasticSearch 2转载 2017-11-20 14:45:40 · 3221 阅读 · 5 评论 -
sql,hql等join条件字段为null时,易出现错误以及解决办法
1.null=null不成立,null2.运行汇总当字段为null时,出现bug,及解决思路join的字段为null,不会出现p1.id=p2.idmysql> select * from yunxing_huizong;+------+------+------+| id | cost | year |+------+------+------+| 1原创 2017-11-17 17:46:16 · 6649 阅读 · 0 评论 -
读取hive文件并将数据导入hbase
转:http://www.cnblogs.com/zhanggl/p/5658517.htmlpackage cn.tansun.bd.hbase;import java.io.IOException;import java.net.URI;import java.util.List;import java.util.Map;import org.apache.hado原创 2017-10-15 17:41:13 · 1309 阅读 · 0 评论 -
Hive之UDF,UDAF自定义函数
当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数。UDF用户自定义函数(user defined function)–针对单条记录。 创建函数流程 1、自定义一个Java类 2、继承UDF类 3、重写evaluate方法 4、打成jar包 6、在hive执行add jar方法 7、在hive执行创建模板函数 8、h转载 2017-10-10 23:50:15 · 916 阅读 · 0 评论 -
hive内部表,外部表,分区表,桶表,函数及自定义函数
环境:CentOS-6.5、hive-2.1.0。首先安装好JDK、hadoop、mysql。mysql对远程可访问的机器进行授权原创 2017-08-27 20:16:30 · 2425 阅读 · 0 评论 -
Hive2.0函数大全(中文版)
转:http://www.cnblogs.com/MOBIN/p/5618747.html目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数 数学函数Return TypeName (Signature)Description转载 2017-09-28 20:13:30 · 547 阅读 · 0 评论 -
hive双重groupby 随机前缀
package com.xxximport java.util.Randomimport org.apache.spark.sql.types.{DataTypes, StructField, StructType}import org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.{SparkConf, Spark原创 2017-09-21 23:37:29 · 1140 阅读 · 0 评论 -
User root is not allowed to impersonate anonymous
使用HiveServer2 and Beeline模式运行时,启动好HiveServer后运行beeline -u jdbc:hive2://localhost:10000 -n root 连接server时出现java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.secu转载 2017-09-25 15:20:59 · 925 阅读 · 0 评论