- 博客(4)
- 收藏
- 关注
原创 spark-shuffle总结及调优
spark1.2 默认使用的是 HashShuffle写入磁盘流程: 将每个task 处理的数据,按照 key 的 hash 进行分类,从而相同的 key 写入到同一个磁盘文件里面,而每个磁盘文件都只属于下游 stage 的一个 task,将数据写入到磁盘前,会先将数据写入到内存缓冲中,当内存缓冲填满后,溢写到磁盘文件中 不排序,当前 stage 的每个 maptask,会为下个 stage每个 reducetask生成一个文件; 文件数量计算公式...
2020-09-18 16:54:25 567
原创 JVM 虚拟机运行时数据区模块与功能
如下为运行时数据区:有些区域随着虚拟机的进程启动而一直存在,有些区域依赖用户的线程的启动和结束而建立和销毁运行时数据区内:白色为线程独享,红包为线程共享1.1 程序计数器 作用:当前线程所执行的字节码的行号指示器 出现背景:CPU 高速运转,线程切换回来能继续执行 线程私有,且不会 OutOfMemoryError 如果正在执行本地方法,这个计数器为空1.2 Java 虚拟机栈 作用:虚拟机栈描述的是 Java 方法执行的线程内存模型,每...
2020-09-16 10:03:24 190
原创 flume使用自定义inteceptor,以及遇到 java.lang.InstantiationException
主要内容flume conf 配置:拦截器+选择器 自定义拦截器 自定义拦截器使用方式与可能遇到的问题1 flume 配置#interceptor 注意 自定义的interceptor后面的"$Builder"一定不能忘记 a1.sources.r1.interceptors = i1 i2 a1.sources.r1.interceptors.i1.type= com.china.flume.interceptor.LogEtlInterceptor$Buildera1.sou.
2020-08-07 13:25:57 2653 2
原创 shell 脚本,实现按小时提交任务,并不影响正在例行的任务,加企业微信报警
#!/bin/bash# 检查是否有每日例行任务function wait_job_done(){ pid=`ps -ef|grep job_name |grep -v grep |awk '{print $2}'|wc -l` until [[ $pid -eq 0 ]];do this_date=`date +"%y-%m-%d %H:%M:%S"` ...
2020-03-17 21:25:56 267
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人