自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 数据库、数据仓库、数据湖、湖仓一体分别是什么?

https://support.huaweicloud.com/dws_faq/dws_03_2121.html

2023-04-28 17:57:25 158

转载 Hive从hive0.14版本开始,通过配置支持事务可以实现hive的行级更新了

Hive 如何插入多行数据

2022-08-18 17:59:50 584

原创 大数据数仓发展历程

大数据数仓发展历程

2022-07-26 12:29:44 561

原创 hive修复多级分区

hive 修复多级分区

2022-07-13 20:06:39 661

原创 hive脚本模板

–task_name :dwd_xxx.sql–chinese_name :xxx表–input_table :dwr.dwd_xxx–output_table :dwr.dwd_xxx–developers :xxx–create_date :2022-05-26–update_info :2022-05-30set mapred.job.name = dwr.dwd_xxx.developer_id.${hiveconf:date}

2022-05-30 21:05:50 164

原创 Hive常用参数总结

1、Map相关–一个MapTask内存可使用的资源上限(单位:MB),默认为1024,如果MapTask实际使用的资源量超过该值,则会被强制杀死set mapreduce.map.memory.mb = 1024;–设置map jvm内存(小于map内存)set mapreduce.map.java.opts = -Xmx3276;– 每个MapTask可使用的最多cpu core数目,默认值: 1set mapreduce.map.cpu.vcores = 1;–执行Map前进行小文件合并

2022-05-30 19:32:31 1664

原创 HIve数据倾斜原理以及治理方案

hive优化

2022-04-29 21:21:25 2549

原创 OLTP、OLAP、HTAP之间的区别

1、OLTP 联机事务处理事件驱动、面向应用,主要特性:(1)数据是应用系统产生的(2)每次处理的数据量很小(3)相应时间要求高(4)用户量大,并发度高(5)各种数据操作主要基于索引进行2、OLAP 联机分析处理(1)主要用来分析处理数据仓库的数据,主要用来查询数据(2)数据来源是OLTP系统中的操作数据(3)查询的数据量大,而且会涉及到多表连接、全表扫描等复杂查询(4)相应时间与具体的查询有很大的关系(5)用户数量相对较小,并发度低,主要面向业务人员和管理人员3、HTAP 混合事

2022-01-27 16:58:51 3964

原创 shell脚本传入当前时间获取其他常用时间

#!/bin/bash# 需要传入的日期格式:yyyyMMdd-hhmmss 例如:20220125-205555start_date=$1#截取获取日期和时间arr=(${start_date//-/ })day=${arr[0]}# 获取当前日期now_day=`date -d "$day" "+%Y%m%d"`now_day_=`date -d "$day" "+%Y-%m-%d"`# 获取本周第一天日期day_week=`date -d "$now_day" +%u`

2022-01-25 21:16:50 1624

原创 数据仓库维度建模——维度表设计

一、基本概念1、维度查看事实的角度称为维度2、维度属性维度所包含的表示维度的列的列,称为维度属性,一般是查询约束条件,分组和报表标签生成的基本来源。3、获取维度的方式(1)可以在报表需求中获取(2)可以在相关的业务过程中发现和挖局4、维度的主键用于标识维度的唯一性,分为两种类型:(1)代理键不具有具体业务含义的键,一般用于处理缓慢变化维。(2)自然键具有业务含义的键。二、设计方法和步骤1、选择维度或者新建维度在这个过程中需要保证维度的唯一性,有且只允许有一个维度定义,比如商品

2021-12-31 19:28:27 3608

原创 数据仓库维度建模——事实表设计

一、 事实表相关概念1、 粒度1.1 什么是粒度事实表中一条记录说表达的业务细节程度被称为粒度。1.2 两种常用表现形式(1)使用维度属性组合来表示的细节程度。(2)表示的具体的业务含义。事实2.1 什么是事实业务过程中具体的度量值称为事实,比如发货数量、支付金额等。2.2 三种类型的事实(根据是否可加分类)(1)可加事实:可以按照与事实表关联的任意维度进行汇总。(2)半可加事实:只能按照特定的维度进行汇总,不能对所有维度汇总。一般对于不可加性事实需要分解为可加的事实放到事实表(事

2021-12-30 21:07:53 2065 1

原创 lead函数在统计页面浏览时长中的应用

创建页面浏览记录表create table if not exists page_view( ,page_id string comment '页面id' ,page_status string comment '浏览状态:1:退出;0:进入' ,ux_event_time string comment '发生时间(毫秒)')comment '页面.

2021-12-30 19:35:12 247

原创 Hive如何开启mapjoin优化

set hive.optimize.skewjoin=true; //有数据倾斜时开启负载均衡,默认falseset hive.auto.convert.join=true; //设置自动选择MapJoin,默认是trueset hive.auto.convert.join.noconditionaltask=true; //map-side joinset hive.auto.convert.join.noconditionaltask.size=300000000; //多大的表可以自动触发放到内

2021-12-06 18:12:56 2052

原创 Scala数组和Java集合List的互转

import java.utilimport scala.collection.mutableimport scala.collection.mutable.ArrayBufferobject ArrayToJavaList { def main(args: Array[String]): Unit = { //创建一个Scala的可变数组 val arrBuffer = ArrayBuffer[Int](1, 2) //将Scala的数组转化为Java的List

2021-01-08 22:52:57 1148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除