自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(115)
  • 收藏
  • 关注

原创 Python 递归遍历多层目录下所有文件

递归遍历多层目录下所有文件,输出文件地址,删除所有文件名中包括“_bin200_”的文件

2022-12-19 11:56:36 1832 1

原创 HashMap遍历、排序

hashmap遍历、排序

2022-11-29 19:49:03 460

原创 正则表达式

正则表达式

2022-11-29 17:36:00 537

原创 SQL-统计连续N天登陆的用户

统计连续N天登陆的用户

2022-06-22 22:12:42 1744 2

原创 SparkStreaming 有几种方式消费 Kafka 中的数据(与 kafka 集成的方式)

SparkStreaming 有哪几种方式消费 Kafka 中的数据,它们之间的区别是什么?

2022-06-19 22:58:35 538

原创 sql 优化

sql 优化

2022-06-19 20:40:16 293

原创 手写 Spark-WordCount

手写wordcount

2022-06-18 19:37:26 343

原创 spark RDD 行动算子

spark rdd action 算子

2022-06-18 19:27:12 212

原创 hive 的存储格式

hive的存储格式

2022-06-18 00:16:39 2969

原创 那你介绍一下 Mapreduce 工作原理?

mapreuce工作原理

2022-06-17 13:42:46 458

原创 数据仓库之维度建模

数据仓库

2022-06-13 19:09:45 2049

原创 计算每个月的累计薪资是多少?一月份赚了3000,二月份赚了6000,想二月份变成9000,每一次都是累加的

sql

2022-06-13 17:32:05 176

原创 数据仓库之拉链表

拉链表

2022-06-13 14:46:39 366

原创 JVM 垃圾回收机制

jvm 垃圾回收机制

2022-06-05 21:42:29 367

原创 说一下 zookeeper 的选举过程

zookeeper 的选举过程

2022-06-05 16:19:40 474

原创 Spark 任务如何调优

spark 调优

2022-06-05 00:59:44 843

原创 如何基于MapReduce做Hadoop的优化的?

基于 MapReduce做 Hadoop 的优化

2022-06-04 22:59:19 192

原创 Spark 数据倾斜

数据倾斜

2022-06-04 20:01:49 1032

原创 Spark 算子调优

算子调优

2022-06-04 17:33:02 388

原创 Spark Shuffle调优

Shuffle 调优

2022-06-04 11:54:05 219

原创 Spark JVM调优总结

JVM调优

2022-06-04 10:12:23 275

原创 Spark 性能调优总结

spark性能调优

2022-06-03 23:36:49 920

原创 Synchronized 与 Lock 的区别

synchronized与Lock的区别

2022-06-03 20:10:06 92

原创 kafka如何确保数据不丢失?

kafka防止数据丢失

2022-06-03 20:05:48 2065

原创 数据仓库都分哪几层?

数据仓库分哪些层

2022-06-03 19:57:58 1989

原创 说说JVM的垃圾回收算法

引用计数法、复制算法、标记算法、标记整理

2022-06-03 12:07:06 93

原创 根据项目中的介绍,谈谈为什么要对数仓进行分层?

数仓进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个更加清晰的掌握。

2022-06-02 23:30:57 313

原创 Flume拦截器

优缺点、步骤

2022-06-02 20:08:12 230

原创 请你说说进程和线程的区别

进程是包含线程的,一个进程可以包含一个或多个线程

2022-06-02 11:37:28 133

原创 说说你了解的JVM内存模型

JVM由三部分组成:类加载子系统、执行引擎、运行时数据区。

2022-06-02 11:04:51 193

原创 产生死锁的四个必要条件

互斥、请求与保持、不剥夺、循环等待

2022-06-01 16:36:34 104

原创 什么是类加载器,类加载器有哪些?

实现通过类的权限定名获取该类的二进制字节流的代码块叫做类加载器。

2022-06-01 16:22:27 793

原创 Kafka 消息丢失和重复问题

要确定 Kafka 的消息是否丢失或重复,从两个方面分析入手:消息发送和消息消费。消息发送Kafka 消息发送有两种方式:同步和异步,默认是同步方式,可通过 producer.type 属性进行配置。Kafka 通过配置 request.required.acks 属性来确认消息的生产:0——表示不进行消息接收是否成功的确认;1——表示当 Leader 接收成功时确认;-1——表示 Leader 和 Follower 都接收成功时确认;综上所述,有6种消息生产的情况,下面分情况来分析消息丢失的

2022-05-27 18:54:36 1901

原创 调优之前与调优之后性能的详细对比(例如调整 map 个数,map 个数之前多少、之后多少,有什么提升)

这里举个例子。比如我们有几百个文件,会有几百个 map 出现,读取之后进行 join 操作,会比较慢。这个时候我们可以进行 coalesce 操作,比如 240个 map,我们合成 60 个map,也就是 窄依赖。这样再shuffle,过程产生的文件数会大大减少。提高 join 的时间性能。...

2022-05-27 16:47:27 173

原创 如何使用Spark实现TopN的获取(描述思路或使用伪代码)

方法1:a. 按照 key 对数据进行聚合(groupByKey)b. 将 value 转换为数组,利用 scala 的 sortBy 或者 sortWith 进行排序(mapValues)注意:当数据量太大时,会导致OOM。val rddData1 = sparkSession.parallelize(Array(("sivela", 15),("sivela", 18),("sivela", 16),("Alice", 15),("Bob", 18)))val rddGroup = rdd.

2022-05-26 19:47:01 551

原创 Hadoop 解决数据倾斜方法

一般发生在 reduce端,其他任务10s以内就执行完了,有一个任务执行了50分钟还没有执行完,程序卡在99%不动了,甚至爆出了内存溢出。原因分析:导致数据倾斜的 key 大量分布在相同的 mapper,map 端解决:提前在 map 进行 combine,减少传输的数据量。在 Mapper 加上 combiner 相当于提前进行 reduce,即把一个 Mapper 中的相同 key 进行了聚合,减少了 shuffle 过程中传输的数据量,以及 Reducer 端的计算量。导致数据倾斜

2022-05-26 12:42:01 413 1

原创 Kafka 的 ISR 副本同步队列

ISR,副本同步队列。ISR 中包括 Leader 和 Follower。如果 Leader 进程挂掉,会在 ISR 队列中选择一个服务作为新的 Leader。有延迟条数和延迟时间两个参数决定一台服务是否可以加入 ISR 副本队列,在0.10 版本移除了 延迟条数 参数,防止服务频繁的进去队列。任意一个维度超过阈值都会把 Follower 剔除出 ISR,存入到 OSR 列表,新加入的 Follower 也会先存放在 OSR 中。...

2022-05-25 19:58:00 630

原创 请列举会引起 shuffle 过程的 spark 算子,并简述功能

byKey类的操作:比如 reduceByKey、groupByKey、sortByKey 等;因为要对一个key,进行聚合操作,那么肯定要保证集群中,所有节点上的,相同的 key,一定是到同一个节点上进行处理;a. reduceByKey :将数据按照相同的 key 对 value进行聚合;b. groupByKey :将数据按照相同的 key 对 value进行分组;c. aggregateByKey :将数据按照不同的规则进行分区内计算和分区间计算;d. foldByKey:当分区内计算规则.

2022-05-25 12:30:13 732 1

原创 在项目中是否自定义过UDF、UDTF函数,以及用他们处理了什么问题,及自定义步骤?

自定义过用 UDF 函数解析公共字段;用 UDTF 函数解析事件字段自定义 UDF:继承 UDF,重写 evaluate 方法自定义 UDTF:继承自 GenericUDTF,重写3个方法:initialize(自定义输出的列名和类型),process(将结果返回 forward(result)),close为什么要自定义 UDF/UDTF,因为自定义函数,可以自己埋点Log打印日志,出错或者数据异常,方便调试。...

2022-05-24 19:13:06 334

原创 简述 SparkSQL中RDD、DataFrame、DataSet 三者的区别与联系?

RDDRDD:是弹性分布式数据集**,是Spark中最基本的数据抽象,代表一个不可变,可分区、里面的元素可并行计算的集合。优点:a. 编译时类型安全:编译时就能检查出类型错误;b. 面向对象的编程风格:直接通过类名点的方式来操作数据;缺点:a. 序列化和反序列化的性能开销:无论是集群间的通信,还是IO操作都需要对对象的结构和数据进行序列化和反序列化;b. GC (垃圾回收)的性能开销,频繁的创建和销毁对象,势必会增加GC(程序进行GC时,所有任务都是暂停);DataFrameDa..

2022-05-24 12:16:02 825

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除