自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 记一次spark数据倾斜问题解决过程

1. 背景最近运行spark任务时,经常出现任务失败,查看原因都是shuffle过程中某些文件不存在,无法读取。但是这些任务长期运行,会产生通常那种疑问:“以前没问题,怎么最近就有问题了,难道不是任务的问题,是集群又有什么问题了”。由于没有开启history server,所以重新运行了一次查看原因,发现以下现象:某个Stage的Task大部分很快完成,只有一个Task一直不能完成,而且shuffle过程中数据量过大(该Task数据量超过千万行,大小在10+GB)。Task对应的Executor日

2021-11-14 11:35:32 1536

原创 [读书笔记][从Paxos到Zookeeper分布式一致性原理与实践] 1. 分布式系统原理和理论

1. 分布式原理分布式系统是硬件和软件分布在不同网络计算机上,彼此间通过消息传递进行通信和协调的系统。1.1 分布式环境存在的问题通信异常:分布式环境存在消息丢失和消息延迟的情况。网络分区:在组成分布式系统的所有节点中只有部分节点能进行正常通信,另一些则不能,形成网络分区孤岛,也称为脑裂。三态:分布式环境请求有3种状态,成功、失败、超时。节点故障:分布式环境中每个节点都有可能出现故障。1.2 分布式系统特性分布性:服务分布在网络的不同的机器上,可能会变动。副本:数据副本:多节点

2020-10-04 20:28:57 1536 3

原创 [读书笔记][java并发编程实践] 第8章-线程池的使用

文章目录1. 任务的隐性耦合2. 线程池配置2.1 线程池大小2.2 线程池配置2.2.1 线程池基本配置2.2.2 管理队列任务2.2.3 饱和策略2.2.4 线程工厂2.2.5 扩展线程池1. 任务的隐性耦合线程池中的任务互相依赖,需要小心维护,避免活跃性问题线程封闭机制的任务对响应时间敏感的任务使用ThreadLocal的任务线程池中的任务需要无限期等待一些必须由池中其他任务...

2020-01-30 18:42:49 171

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除