自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 spark优化思路

最近发现spark作业运行速度很慢,发现executor实例数设置的太低,所以对job进行了优化 优化前:800G压缩文件 30分钟 优化后:800G压缩文件 2分钟======================== 参数优化: task的执行速度是跟每个Executor进程的CPU core数量有直接关系的。一个CPU core同一时间只能执行一个线程。而每个Executor进程上分...

2018-05-24 09:07:42 1440

转载 redis与Memcached

近期公司项目在使用Redis,这几年Redis很火,Redis也常常被当作Memcached的挑战者被提到桌面上来。关于Redis与Memcached的比较更是比比皆是。然而,Redis真的在功能、性能以及内存使用效率上都超越了Memcached吗?•You should not care too much about performances. Redis is faster per cor...

2018-05-28 18:57:43 1693

原创 redis管理命令-info

server : 一般 Redis 服务器信息,包含以下域:redis_version : Redis 服务器版本 redis_git_sha1 : Git SHA1 redis_git_dirty : Git dirty flag os : Redis 服务器的宿主操作系统 arch_bits : 架构(32 或 64 位) multiplexing_api : Redis 所使用...

2018-05-27 17:34:02 503

原创 spark杂记-初识spark

1.rdd 弹性分布式数据集 分区;一个函数处理一个分区;sparkContext;transformation(转换):延迟加载,算子中并不加载数据,如flatMap,map; action(动作):真正开始计算数据 ,之前会记录转换rdd的路径,DAG,在执行action的时候会开始真正的计算,加载数据,这就是spark跟mr的区别,mr是分步骤处理数据,处理的中间结果是保存在磁盘中的...

2018-05-21 17:44:00 1587

原创 spark运行模式全解析

1.local 本地模式:不需要hadoop(除非用到),不需要启动Master,Worker spark-shell(spark-shell –master local[n]) spark-submit (spark-submit –master local[n])2.local cluster 模式:不需要hadoop(除非用到),不需要启动Master,Worker spark-s...

2018-05-21 17:29:36 1754

原创 sparkEnv初始化流程

SparkEnv的方法createDriverEnv最终调用create创建SparkEnv。SparkEnv的构造步骤如下: 1) 创建安全管理器SecurityManager; 2) 创建基于Akka的分布式消息系统ActorSystem; 3) 创建Map任务输出跟踪器mapOutputTracker; 4) 实例化Shuffl...

2018-05-21 17:28:46 1703

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除