![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 71
大锤爱编程
大胆假设,小心求证
展开
-
Spark数据倾斜的解决办法
数据倾斜是指在分布式计算中,某些节点上的数据比其他节点上的数据更多或更少,从而导致Spark作业运行缓慢或失败。例如,在使用Group By操作时,如果某些key的值比其他key的值更多,则会导致一些节点的负载更高,从而可能导致数据倾斜问题。原创 2023-03-21 15:32:30 · 671 阅读 · 0 评论 -
Hive Spark Partition by 和 Group by的区别(面试可以看看)
前言: 最近在工作中发现有小伙伴对partition by 和 group by的概念、使用犯迷糊,只知道是做聚合用,却不知道其计算的过程和对应机制。闲言少叙,进入正题。😉😉🌽🌽Partition by 和 Group by分别是什么🥜🥜原创 2022-04-18 08:45:00 · 1801 阅读 · 4 评论 -
快速理解Raft之日志复制(肝了两千五百字)
Raft的日志复制,常见冲突以及对应的冲突解决方案。原创 2022-03-27 22:02:17 · 2498 阅读 · 2 评论 -
再也不怕面试官问kafka为啥这么快之数据持久化
1原创 2021-09-03 14:22:59 · 314 阅读 · 2 评论 -
Flink Streaming keyedState的理解和使用
前言: 本文所有理解、资料、图片基本上都是来源于官网,更多的是对官网描述的一个总结和概括。一、什么是state State直译上去是”状态”一次,这个有点抽象难以理解。那什么是状态,究竟如何应用到我们的编码过程当中呢?在流式编程中,基本的处理流程是来一条数据,我就处理一条,这种单条和单条数据之间的处理很难形成一个对数据的分析,以下面的Access日志为例,我们对类似于这样的流式数据求一个实时访问量需求。Access IP地址 服务商 页面地址 1...原创 2021-09-01 22:47:19 · 391 阅读 · 0 评论 -
Flink混合编译(No SuchMethodError、ClassNotFoundException、NoClassDefFoundError、Could not resolve )附完整解决方案
一、Flink任务提交集群问题描述本文的背景是编程语言使用Scala,Flink程序提交的方式是Per-Job Cluster Mode,Flink程序打包形式是采用胖包打包。Flink程序Jar包提交的过程中,遇到的问题有:NoSuchMethodError Could not resolve ResourceManager address akka.... ClassNotFoundException NoClassDefFoundError上述的所有问题的根源都是mave...原创 2021-07-22 22:40:10 · 1040 阅读 · 4 评论 -
Flink的一个常见小坑:missing parameter type(从源码分析为啥换一个导入就可以)
1 原因分析 这个报错一般会有两种情况:map过程中存在的POJO类没有定义完善,缺少公有构造函数定义等 使用Scala编码时,Flink接入的Kafka数据,不能使用幂名函数进行操作,只能自定义函数进行对DS的处理2 对应的解决办法2.1 对POJO类进行完整定义 使用@Lombok对class进行注解2.2 查看是否StreamingExecutionEnviroment导错JAVA程序对应的Enviroment导入:import org.a...原创 2021-07-17 18:20:55 · 704 阅读 · 8 评论 -
一文搞懂Flink State如何实战。ValueState实现最大状态值计算
一、什么是state 流式计算场景,简单的说就说来一条数据就处理一条数据,对数据进行实时处理。这个时候就会自然而言的有一类需求,我的业务逻辑依赖之前我已经输入的数据。举一个场景就是Flink程序接收Kafka传输过来的数字,例如1到100的随机数。业务需求是输出收到的最大数字。比如按顺序收到的是0,10,2,3,4,5,应该输出的最大数是10。显然在这个处理过程中,需要一种机制来记录前面收到的信息。这种机制就是Flink里面的state,记录前面输入的数据。...原创 2021-06-27 23:12:57 · 1934 阅读 · 8 评论 -
Spark MLIB的Normalizer、StandardScaler、MinMaxScaler、RobustScaler这个特征处理方法有什么不同
一、特征处理方法机器学习当中最重要的就是寻找数据的特征,给数据打标签。那么在SparkMLIB中提供了package org.apache.spark.ml.feature原创 2021-06-09 10:22:35 · 860 阅读 · 2 评论 -
Spark2.4.5 MLIB源码安装踩坑记java.lang.ClassNotFoundException: org.eclipse.jetty.server.handler.ContextHand
一、坑是啥特别奇怪的是,我下载下来的源代码在idea中直接编译是没有问题的。但在源码目录里面加了一个包,写自己的代码时就出现了包找不到的问题。原创 2021-06-08 15:38:48 · 604 阅读 · 0 评论 -
一分钟知晓SparkSQL Catalyst是干嘛的
1、SparkSQL Catalyst内容SparkSQL Catalyst在SparkSQL中扮演的角色主要是将Spark SQL语句转换为SparkRDD的过渡桥梁。2、SparkSQL Catalyst处理流程 从下图可以看出SparkSQL的Catalyst原创 2021-03-21 11:38:08 · 227 阅读 · 0 评论 -
Spark DAG Scheduler源码解析(一)
一、前言坦白的说,DAG Scheduler写几篇博客能写完,我的心里是没有底的。几篇博客能把DAG Scheduler写的通俗易懂,要点涵盖,我也是没有把握。现在就是一个想法,先写着吧。写的不好,就权当自己的学习过程记录了。二、学习DAG Scheduler的前提知识DAG Scheduler作为Spark 作业计算过程中的调度器,涵盖了很多知识点例如RDD的血缘关系,Stage的划分,Stage的重复计算,Spark任务的错误重试机制,Spark计算的最优地址选择等问题,这些问题都会在第二章原创 2021-03-03 15:52:54 · 238 阅读 · 0 评论 -
Hive SQL中的MapReduce有几个Reduce任务
源码分析分析三个In Order to的默认值是怎么来的 123456 In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number>In order to limit the maximum number of reducers: set hive.exec.reducer原创 2021-02-28 00:04:40 · 612 阅读 · 0 评论 -
ES作为Spark数据源
目录背景一、实现流程二、实现细节基本的操作需要引用的头文件三、配置SparkContext背景开发过程中,根据项目的需求,需要实现使用Spark在ES中创建索引。一、实现流程数据流程如下 123 graph LRA[Oracle]-->|数据上传|B[SparkSQL]B-->|创建索引|C[ES] 二、实现细节基本的操作需要引用的头文件 12345 ..原创 2021-02-27 23:57:19 · 388 阅读 · 0 评论