自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 spark调优,解决数据倾斜代码实例

Spark内存溢出优化Spark中的OOM问题不外乎以下两种情况1.OOM主要发生在Executor端;2.map执行中内存溢出,map中产生大量的对象导致;3.shuffle后内存溢出,数据倾斜导致常见的调优手段:1 增加资源–executor–memory --executor–cores --num–executor yarn–total–executor–cores --e...

2020-04-18 10:34:59 322

原创 简单说说hdfs读写流程

进来了,点个赞再走吧,谢谢您了!HDFS写流程客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后,客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本如图:写详细步骤:1、根namenode通信请求上传文件,namenode检查...

2020-04-16 23:50:27 318

原创 经典sql50题,附答案,适合初学者练手!

进来了, 点个赞再走吧, 谢谢您了.– 数据源/* create database test50;use test50;create table Student(sid varchar(10),sname varchar(10),sage datetime,ssex nvarchar(10));insert into Student values(‘01’ , ‘赵雷’ , ‘1990-...

2020-04-16 23:43:26 1672

原创 数仓之拉链表设计以及在Hive中的实现

本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:一 什么是拉链表拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。下面的这就是一张拉链表,存储的是用户的最基本信息以及每条记录的生命周期。我们可以使用这张表拿到最新的当天的最新...

2020-03-04 22:40:24 346

原创 聊聊数仓建模方法论

本猿搞数仓也有段时间了, 这段时间通过各种书籍,以及公司的培训,还有网络上的资源,再结合自己的思路,整理了下数仓建模方法论, 不当之处,敬请纠正,谢谢!本文将通过如下几点阐述数仓建模方法论 一 什么是数据模型? 二 数仓建模历程. 三 为什么要数据仓库模型? 四 数据模型的建设能够给我们解决哪些问题? 五 如何建设数据仓库模型什么是数据模型数据模型是抽象描述现实...

2020-01-21 14:43:54 714

原创 kafka数据不丢失

什么是kafka一个开源的分布式消息队列(生产者消费者模式) ,消息队列(消息中间件)kafka的特点作为缓冲(流量消减),来异构、解耦系统kafka的基本架构Kafka Cluster:由多个服务器组成。每个服务器单独的名字broker(掮客)。kafka broker:kafka集群中包含的服务器Kafka Producer:消息生产者、发布消息到 kafka 集群的终端或服务。...

2019-12-01 22:05:55 401

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除