![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
风风雨雨中寻觅
平平淡淡,简简单单,取长补短,修炼身心
展开
-
SQL ON Hadoop-Hive(一)-认知篇
1.认识HIVEHive是基于Hadoop的数据仓库工具(允许使用SQL处理HDFS上的数据),Hadoop及其生态圈提供了一个成熟高效的处理海量数据集的解决方案,hive设计目的是为了让精通SQL技能而Java技能较弱的数据分析师能用Hadoop进行各种数据分析。Hive是Facebook开发的海量数据查询工具,hive稳定、代码精简并且易于维护create table text (l...原创 2018-11-30 19:14:46 · 228 阅读 · 0 评论 -
SQL ON Hadoop-Hive(二)-DDL数据定义语言
一.创建数据库Hive中的数据库本质上仅仅是个表的目录或命名空间,在生产环境,如果表非常多,一般会用数据库将生产表组织成逻辑组。Hive中默认使用的数据库是default数据库名+数据库所在的目录位置不能修改--创建数据库(包含数据库键值对属性信息)create database if not exists testcomment 'this is laotian'with ...原创 2018-11-30 20:59:19 · 256 阅读 · 0 评论 -
SQL ON Hadoop-Hive(三)-分区表
分区表是将大的表文件划分成多个小文件以利于查询,但是如果数据分布不均也会影响查询效率(桶表可以对数据进行哈希取模,目的是让数据能够均匀分布在表的各个数据文件中,是对分区表的补充)create table info_student(student_id string,name string,age int,sex string,father_name string,mother_n...原创 2018-12-01 20:32:11 · 307 阅读 · 0 评论 -
SQL ON Hadoop-Hive(四)-数据操作
2019.04.25更新,新增数据类型转换部分一.装载数据--可自动创建分区load data [local] inpath 'file_path' [overwrite] into table table_name [partition(partcol1=val1,parcol2=val2...)]使用local关键字,那么'file_path'应该为本地文件系统(hive客户端...原创 2018-12-01 21:00:14 · 144 阅读 · 0 评论 -
SQL ON Hadoop-Hive(五)-列自增+元数据表
一.hive实现列自增1.用row_number()函数生成代理键insert into tbl_dim select row_number() over (order by tbl_stg.id)+t2.sk_max,tbl_stg.* from tbl_stg cross join (select coalesce(max(sk),0) sk_max from tbl_dim) t...原创 2018-12-01 21:26:06 · 332 阅读 · 0 评论 -
SQL ON Hadoop-Hive(六)-字符串函数+行列转换
一.hive常用字符串函数1.字符串反转函数reverse(string A) --返回值类型string select reverse('gian') from iteblog; --'naig'2.带分隔符字符串连接函数concat_ws(string sep,string a,string b,...) --返回值类型stringselect concat_ws('.',...原创 2018-12-01 22:42:01 · 981 阅读 · 0 评论 -
HIVE中join连接全解析
续写:SQL ON Hadoop-Hive(二)-DDL数据定义语言1.多表joinselect * from table1 t1 join table2 t2 on t1.id=t2.id join table3 t3 on t1.id=t3.id --第一个作业的输出与表3的连接操作--目前hive只支持等值join,不支持非等值的连接(很难转化成map/reduce任务)...原创 2019-06-01 16:22:40 · 2707 阅读 · 0 评论