![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 94
小唐同学爱学习
Be all you can be!保持学习,持续前行!
展开
-
hive之文件格式与压缩
为Hive表中的数据选择一个合适的文件格式,对提高查询性能的提高是十分有益的。Hive表数据的存储格式,可以选择text file、orc、parquet、sequence file等。ORC(Optimized Row Columnar)file format是Hive 0.11版里引入的一种列式存储的文件格式。ORC文件能够提高Hive读写数据和处理数据的性能。我们文件一般都是一个二维表,行式存储就是以一行数据为一个单位,存储在相邻的位置,列示存储是以一列数据为单位,一个单位内的数据放在相邻的位置。原创 2023-07-23 18:25:59 · 1109 阅读 · 0 评论 -
hive之存储优化
从这里开始就是hive调优阶段,怎么让hive跑的更快。分区表和分桶表都是从存储方向进行优化。原创 2023-07-21 22:22:35 · 577 阅读 · 0 评论 -
Hive自定义函数
本文章主要分享单行函数UDF(一进一出)现在前面大体总结,后边文章详细介绍自定义函数分为临时函数与永久函数需要创建Java项目,导入hive依赖创建类继承GenericUDF(自定义函数的抽象类)(实现函数)打成jar包,传到服务器上将jar包添加到hive的class path上临时生效通过hive创建函数与Java类建立连接。原创 2023-07-17 17:04:40 · 2258 阅读 · 0 评论 -
Hive之函数篇(使用函数看这篇足够了)
时间戳:我们常说的时间戳是unix时间戳----指从1970年1月1日00:00:00(UTC--世界协调时间,便于统一时区---可以认为是0时区)起算的秒数,它用于表示某个时间点相对于UNIX纪元时间的时间差。完整函数有三个参数,参数1:字符串 参数2:从什么位置开始截取(从1开始,正数表示从左往右数数,找到指定位置,负数表示从右往左数数,从-1开始,找到指定位置)参数3:表示截取的字符数,不写默认截取到最后。参数2:传入的是需要查找的位置(加一个$(指代的前边传入的字符串).符号)原创 2023-07-10 16:58:37 · 1561 阅读 · 3 评论 -
hive之DML操作
B的表达式说明如下:‘x%’表示A必须以字母‘x’开头,‘%x’表示A必须以字母‘x’结尾,而‘%x%’表示A包含有字母‘x’,可以位于开头,结尾或者字符串中间。连接还有内连接,左外连接,右外连接,满外连接,出现上述不同种连接主要是根据在两个表进行连接的时候出现不匹配的数据的处理情况而区分的。join是横向连接形成一张虚拟表,在连接的时候有等值连接也有不等值连接,而且在连接的时候要有相同的字段进行相连。如果A和B都为null或者都不为null,则返回true,如果只有一边为null,返回false。原创 2023-05-15 16:06:47 · 661 阅读 · 6 评论 -
Hive之DDL
需要注意的是:修改数据库location,不会改变当前已有表的路径信息,而只是改变后续创建的新表的默认的父目录。加上该关键字就是创建外部表的意思(内部表也叫管理表:管理表意味着Hive会完全接管该表,包括元数据和HDFS中的数据,外部表:而外部表则意味着Hive只接管元数据,而不完全接管HDFS中的数据。该语法允许用户利用select查询语句返回的结果,直接建表,表的结构和查询语句的结构保持一致,且保证包含select查询语句放回的内容。在创建的时候没有指定路径(hdfs的存储路径)会使用默认路径。原创 2023-05-09 16:28:40 · 876 阅读 · 39 评论 -
hive之入门配置
学习hive之路就此开启啦,让我们共同努力。原创 2023-05-04 19:25:59 · 4191 阅读 · 29 评论