hive
文章平均质量分 52
青龙悟空
goooooooooooooooooooo
展开
-
hive 列转行
测试数据hive> select * from col_lie limit 10;OKcol_lie.user_id col_lie.order_id104399 1715131104399 2105395104399 1758844104399 981085104399 2444143104399 1458638104399 968412104400 1609001104400 2986088104400.原创 2021-02-08 14:53:45 · 491 阅读 · 0 评论 -
hive 测试存储和压缩
测试存储和压缩官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORCORC存储方式的压缩: Key Default Notes orc.compress ZLIB high level compression (one of NONE, ZLIB, SNAPPY) orc.co.原创 2021-02-08 14:14:54 · 171 阅读 · 0 评论 -
hive 文件存储格式
Hive支持的存储数据的格式主要有:TEXTFILE、SEQUENCEFILE、ORC、PARQUET。8.4.1 列式存储和行式存储如图所示左边为逻辑表,右边第一个为行式存储,第二个为列式存储。1)行存储的特点查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。2)列存储的特点因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段.原创 2021-02-08 11:30:11 · 82 阅读 · 0 评论 -
日期相关函数
(1)current_date返回当前日期select current_date();(2)date_add, date_sub 日期的加减--今天开始90天以后的日期select date_add(current_date(), 90);--今天开始90天以前的日期select date_sub(current_date(), 90);(3)两个日期之间的日期差--今天和1990年6月4日的天数差SELECT datediff(CURRENT_DATE(), "1990原创 2021-02-08 11:17:12 · 145 阅读 · 0 评论 -
Hive数据类型
3.1 基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4b原创 2021-02-08 11:05:20 · 66 阅读 · 0 评论 -
get_json_object函数使用
get_json_object函数使用1)数据xjson[{"name":"大郎","sex":"男","age":"25"},{"name":"西门庆","sex":"男","age":"47"}]2)取出第一个json对象select get_json_object('[{"name":"大郎","sex":"男","age":"25"},{"name":"西门庆","sex":"男","age":"47"}]','$[0]');结果是:{"name":"大郎","sex":"男",原创 2021-02-08 10:24:10 · 22162 阅读 · 0 评论 -
hive nvl函数
1)基本语法NVL(表达式1,表达式2)如果表达式1为空值,NVL返回值为表达式2的值,否则返回表达式1的值。 该函数的目的是把一个空值(null)转换成一个实际的值。其表达式的值可以是数字型、字符型和日期型。但是表达式1和表达式2的数据类型必须为同一个类型。...原创 2021-02-08 10:22:23 · 1017 阅读 · 0 评论 -
hive collect_set函数
1)创建原数据表hive (gmall)>drop table if exists stud;create table stud (name string, area string, course string, score int);2)向原数据表中插入数据hive (gmall)>insert into table stud values('zhang3','bj','math',88);insert into table stud values('li4','b原创 2021-02-08 10:20:26 · 580 阅读 · 0 评论 -
hive优化-文件存储格式和压缩方法
hive调优是比较大的专题,需要结合实际的业务,数据的类型,分布,质量状况等来实际的考虑如何进行系统性的优化,hive底层是mapreduce,所以hadoop调优也是hive调优的一个基础,hvie调优可以分为几个模块进行考虑,数据的压缩与存储,sql的优化,hive参数的优化,解决数据的倾斜等。主要分为以下几块:第一:数据的压缩与存储格式对分析的数据选择合适的存储格式与压缩方式能提高hive的分析效率:1)压缩方式压缩可以节约磁盘的空间,基于文本的压缩率可达40%+;...原创 2021-02-08 09:47:45 · 901 阅读 · 0 评论 -
regexp_extract
regexp_extract语法: regexp_extract(stringsubject, stringpattern, intindex)返回值:string说明: 将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。第一参数: 要处理的字段第二参数: 需要匹配的正则表达式第三个参数:0是显示与之匹配的整个字符串 1 是显示第一个括号里面的 2 是显示第二个括号里面的字段...注意,在有些情况下要使用转...原创 2020-12-23 10:32:14 · 755 阅读 · 0 评论 -
Hive中rlike,like,not like,regexp详解
1.like的使用详解1.语法规则:格式是A like B,其中A是字符串,B是表达式,表示能否用B去完全匹配A的内容,换句话说能否用B这个表达式去表示A的全部内容,注意这个和rlike是有区别的。返回的结果是True/False. B只能使用简单匹配符号_和%,”_”表示任意单个字符,字符”%”表示任意数量的字符 like的匹配是按字符逐一匹配的,使用B从A的第一个字符开始匹配,所以即使有一个字符不同都不行。2.操作类型: strings3.使用描述:如果字符串A或者字符串B为NULL,..原创 2020-12-23 10:17:32 · 4507 阅读 · 0 评论 -
hive 正则表达式
把一个由子母和数字组成的字符串,提取所有的字母串和数字串。简单想了下可以写udf解决,也可以用正则处理。采用正则处理的实例如下: --字符串'sdfsd1232sdf324',拆成'sdfsd','1232','sdf','324' select explode(split(regexp_replace('sdfsd1232sdf324','[0-9]+',','),',')) union all select explode(split(regexp_replace(.原创 2020-12-21 14:11:05 · 2003 阅读 · 0 评论