![](https://img-blog.csdnimg.cn/20190918140145169.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hive/Kylin数据仓库
文章平均质量分 65
hive的操作
黄土高坡上的独孤前辈
010101010101010101010101010101
展开
-
Presto&Kylin
测试结论:Impala性能稍领先于Presto,但是Presto在数据源支持上非常丰富,包括Hive、图数据库、传统关系型数据库、Redis等。Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。原创 2024-07-27 14:09:38 · 929 阅读 · 0 评论 -
Apache Doris
Apache Doris 由百度大数据部研发(之前叫百度 Palo,2018 年贡献到 Apache 社区后,更名为 Doris ),在百度内部,有超过 200 个产品线在使用,部署机器超过 1000 台,单一业务最大可达到上百 TB。Apache Doris 是一个现代化的 MPP(Massively Parallel Processing,即大规模并行处理)分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。原创 2024-07-20 18:26:21 · 259 阅读 · 0 评论 -
HiveSQL一本通 - 案例实操
文章目录0.HiveSQL一本通使用说明6.综合案例练习之基础查询6.1 环境准备创建数据表数据准备加载数据6.2 简单查询练习1.查询姓名中带“山”的学生名单2.查询姓“王”老师的个数3.检索课程编号为“04”且分数小于60的学生的分数信息,结果按分数降序排列4.查询数学成绩不及格的学生信息和其对应的数学学科成绩,按照学号升序排序6.3 分组与汇总练习6.3.1 汇总练习1.查询编号为“02”的课程的总成绩6.3.2 分组练习1.查询各科成绩最高和最低的分,以如下的形式显示:课程号、最高分、最低分2.查询原创 2024-03-21 00:19:57 · 1034 阅读 · 1 评论 -
数仓建模理论核心要义
维度建模(Kimball架构)全链路数据治理-智能数据建模原创 2024-02-25 15:19:52 · 292 阅读 · 0 评论 -
Hive使用双重GroupBy解决数据倾斜问题
随机数:ceil(rand*10)原创 2024-02-18 19:46:39 · 971 阅读 · 1 评论 -
Hive中对表手动创建分区
hive手动创建分区原创 2023-02-02 10:21:04 · 358 阅读 · 0 评论 -
Hive的Join操作
Hive的Join操作原创 2022-04-08 23:34:57 · 12331 阅读 · 2 评论 -
SQL中on 和 where的区别
文章目录1.区别2.案例1.区别数据库在通过连接两张或多张表来返回记录时,都会生成一张中间的临时表,然后再将这张临时表返回给用户。在使用 left jion 时,on 和 where 条件的区别如下:1、 on 条件是在生成临时表时使用的条件,它不管 on 中的条件是否为真,都会返回左边表中的记录。2、where 条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有 left join 的含义(必须返回左边表的记录)了,条件不为真的就全部过滤掉。2.案例参考:https://ww原创 2021-11-06 13:17:56 · 572 阅读 · 0 评论 -
Hive解析JSON数组
文章目录1.案例2.参考资料1.案例2.参考资料hive之Json解析(普通Json和Json数组)原创 2021-09-02 22:51:23 · 287 阅读 · 0 评论 -
Hive/MySQL/Flink 中对树结构/递归计算的处理
文章目录一.数据源:二.需要结果:三.hive sql四. 输出结果一.数据源:id,city,parentId1,北京市,02,山东省,03,昌平区,14,海淀区,15,沙河镇,36,马池口镇,37,中关村,48,上地,49,烟台市,210,青岛市,211,单平区,912,芝果区,913,即墨区,1014,城阳,10注意: 一个id 唯一对应一个ParentId 一个ParentId可以对应多个id二.需要结果: 一级 二级 三级 0原创 2021-07-25 20:47:57 · 1101 阅读 · 3 评论 -
Hive常用函数使用
select REGEXP_REPLACE(‘aa11我们1b_b2cc_3dd很好’,’([^a-z]+)’,’’);select REGEXP_REPLACE(‘a231都很12_52cc_3dd漂亮’,’([^0-9]+)’,’’);原创 2021-07-05 19:19:54 · 514 阅读 · 1 评论 -
Hive窗口函数使用案例
文章目录1.数据源2.初始化数据3.指标统计(1)用户购买明细及上次的购买时间(2)用户购买明细及下次的购买时间(3)用户购买明细及本月第一次购买的时间(4)用户购买明细及本月最后一次购买的时间(5)用户购买明细及每月总额(6)用户购买明细及金额按日期累加(7)用户购买明细及最近三次的总额(8)查询前30%时间的订单信息1.数据源vim /opt/data/user_purchase_detail.txtpk,2021-09-01,500,10.10.10.9xingxing,2021-09-02原创 2021-01-27 21:31:48 · 158 阅读 · 0 评论 -
Hive中时间戳与日期转换与MongoDB中UTC时间处理
1.时间戳转成日期select distinct from_unixtime(1441565203,‘yyyy/MM/dd HH:mm:ss’) from test_date;2.日期转成时间戳select distinct unix_timestamp(‘20111207 13:01:03’) from test_date; // 默认格式为“yyyy-MM-dd HH:mm:ss“select distinct unix_timestamp(‘20111207 13:01:03’,‘yyyy原创 2020-11-20 11:38:17 · 582 阅读 · 0 评论 -
Hive Sql中两个字段顺序无关去重
1.背景在用户点击网页中,会存在 链路A->B->A ,用户点了A页面,进入B页面,又返回A页面,此时子页面(page_id)和父页面(refer_id)的关系,可以形成表: page_id refer_id B A A B 这两条数据,假如将 B,A A,B看做一条数据,该如何去重?2.案例create table page(page_id string,refer_id string)row format delimited fie原创 2020-11-14 17:20:52 · 1072 阅读 · 0 评论 -
hive行转列的应用
-- 初始化数据create table if not exists in_2_out.userlog_page_chain_test(page_chain string comment '一次操作中的页面点击链',staytime String comment '页面停留时长(ms)') row format delimited fields terminated by ',' lines terminated by '\n';insert into table in_2_out.user原创 2020-10-26 13:06:24 · 193 阅读 · 0 评论 -
hive-1.1.0-cdh5.16.2版本mysql元数据表详解
文章目录0.新建一个分区表:涉及到哪几张表0.1 在ods库创建分区表0.2 元数据dbs表中有库ods库0.3 元数据tbls表中有表my_table (TBL_ID=481) (SD_ID=606 序列化配置信息对应SDS表中的SD_ID)0.4 分区相关元数据0.4.1 [ partition_key_vals ] 分区V 分区字段的值 (PART_ID=226 、227)0.4.2 [ partition_keys ] 分区K 字段及类型(TBL_ID=481)0.4.3 [ partition_p原创 2020-09-09 18:47:39 · 355 阅读 · 0 评论 -
Hive-1.1.0-cdh5.16.2集成tez0.9.2---源码编译与安装
文章目录0.环境要求1.下载源码包2.安装protobuf3.源码根目录pom.xml中添加相关依赖与集成hadoop版本3.1修改集成hadoop版本3.2由于集成的是cdh版本 需要在repository中加上cdh仓库3.3如果是用国内服务器编译,可以将本地maven中添加阿里云依赖3.4 为了能够顺利编译tez-ui,安装nodejs与bower4.编译及报错4.1在源码包的根目录执行编译命令4.2 报错5.编译完成6.安装tez(可用)6.1 解压tez-0.0.2.tar.gz ,并上传至hdf原创 2020-07-29 10:36:50 · 980 阅读 · 0 评论 -
Hive mapreduce的map与reduce个数由什么决定?
文章目录1.MapTask的数量决定2.如何来调整MapTask的数量2.1 增加map的数量 : 调小maxsize (要小于blockSize才有效,比如128M)2.2 减少map的数量 : 调大minSize (要大于blockSize才有效,比如250M)2.3生产中一般不调整,但是要知道原理。3. ReduceTask的数量决定3.1 在执行hive shell的时候可以看到下列日志3.2 官网对这三个参数的解释3.3 通过源码分析 hive是如何通过方式一 动态计算reduce的个数的4.如何原创 2020-07-25 16:33:53 · 10313 阅读 · 8 评论 -
Hive窗口函数的使用
窗口函数1.窗口函数介绍窗口 :函数运行/计算时 所对应的数据集范围函数 :执行的函数(1)官方参考文档https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics(2)Over与聚合函数结合使用官方介绍The OVER clauseOVER with standard aggregates:COUNTSUMMINMAXAVGOVER with a PARTITION原创 2020-07-25 13:55:50 · 308 阅读 · 0 评论 -
Hive基础安装与函数使用
文章目录一. Hadoop与Sql二. HDFS 文件存储三. Hive下载与安装1.Hive简介2.hive Sql3.hive 架构3.1 MetaStore3.2 Hive vs RDMBS3.3 Hive的适用场景4.hive 部署4.1下载4.2解压4.3添加Hive的bin到环境变量:4.4 修改配置文件4.5 Hive基本命令四. Hive DDL与DML基本操作1. db <==> HDFS directory2. table <==> HDFS directo原创 2020-06-03 22:30:15 · 507 阅读 · 0 评论 -
hive与sqoop结合使用
文章目录一.表结构二.业务处理流程三.生产数据源头四.导入/导出 框架要使用1.Sqoop简介2.sqoop 部署3.sqoop 导入4.sqoop导出一.表结构分类:树形结构 id + pid 1 xxx 0 2 yyy 1商品:归属于某个分类 id name catagory_id 订单表: 谁 什么时间 买了什么东西 订单编号 会员编号 总额...订单条目: 商品 数量 单价 订单编号 14天 今天-14天 select day,coun原创 2020-06-07 12:57:32 · 589 阅读 · 0 评论 -
Hive数据仓库(一) 介绍
文章目录一.项目背景:电商二.离线数仓演进过程1.第一个阶段2.第二个阶段3.第三个阶段4.第四个阶段三.如何去做数仓架构设计0.整体架构图1.数据抽取 sqoop/datax2.数仓分层3.数据回流4.数仓表名、字段名 命名规范5.技术选型四.数据库&数据仓库的区别1.范式2.数据仓库和范式之间存在着一种什么样的关系一.项目背景:电商离线数仓演进过程当中遇到的问题&解决方案/思路数据库&数据仓库 范式建模 维度建模维度表设计 事实表设计 kylinmysql hi原创 2020-06-07 23:07:48 · 668 阅读 · 0 评论 -
kylin(一)介绍 编译 与 单节点测试
文章目录1. kylin的产生背景1.1 传统数仓会遇到的问题:1.2 kylin核心设计理念的诞生的过程:2.kylin的发展历史3.kylin技术架构3.1 数据源3.2 核心模块4.kylin核心概念4.1 维度/度量:4.2 cube/cuboid4.3 segment5.kylin目录:6.kylin部署架构7.sample_cube体验8.kylin的编译8.1 nodejs安装8.2 bower安装8.3 phantomjs安装8.4 pom.xml文件修改 cdh5.7 ==>原创 2020-06-29 23:36:41 · 1334 阅读 · 0 评论 -
用数据看hive的order distribute sort cluster by的区别
1.distribute by hash分发到不同分区分区规则是根据分区字段的hash码与reduce的个数进行模除后,余数相同的分到一个区。1.1实验hive (default)> select * from empt;OKempt.empno empt.ename empt.job empt.mgr empt.hiredate empt.sal empt.comm empt.deptno7566 JONES MANAGER 7863 1980-12-17 2975.0 0 20原创 2020-07-03 17:30:28 · 585 阅读 · 0 评论