- 博客(6)
- 收藏
- 关注
原创 spark优化思路
最近发现spark作业运行速度很慢,发现executor实例数设置的太低,所以对job进行了优化 优化前:800G压缩文件 30分钟 优化后:800G压缩文件 2分钟======================== 参数优化: task的执行速度是跟每个Executor进程的CPU core数量有直接关系的。一个CPU core同一时间只能执行一个线程。而每个Executor进程上分...
2018-05-24 09:07:42 1440
转载 redis与Memcached
近期公司项目在使用Redis,这几年Redis很火,Redis也常常被当作Memcached的挑战者被提到桌面上来。关于Redis与Memcached的比较更是比比皆是。然而,Redis真的在功能、性能以及内存使用效率上都超越了Memcached吗?•You should not care too much about performances. Redis is faster per cor...
2018-05-28 18:57:43 1693
原创 redis管理命令-info
server : 一般 Redis 服务器信息,包含以下域:redis_version : Redis 服务器版本 redis_git_sha1 : Git SHA1 redis_git_dirty : Git dirty flag os : Redis 服务器的宿主操作系统 arch_bits : 架构(32 或 64 位) multiplexing_api : Redis 所使用...
2018-05-27 17:34:02 503
原创 spark杂记-初识spark
1.rdd 弹性分布式数据集 分区;一个函数处理一个分区;sparkContext;transformation(转换):延迟加载,算子中并不加载数据,如flatMap,map; action(动作):真正开始计算数据 ,之前会记录转换rdd的路径,DAG,在执行action的时候会开始真正的计算,加载数据,这就是spark跟mr的区别,mr是分步骤处理数据,处理的中间结果是保存在磁盘中的...
2018-05-21 17:44:00 1587
原创 spark运行模式全解析
1.local 本地模式:不需要hadoop(除非用到),不需要启动Master,Worker spark-shell(spark-shell –master local[n]) spark-submit (spark-submit –master local[n])2.local cluster 模式:不需要hadoop(除非用到),不需要启动Master,Worker spark-s...
2018-05-21 17:29:36 1754
原创 sparkEnv初始化流程
SparkEnv的方法createDriverEnv最终调用create创建SparkEnv。SparkEnv的构造步骤如下: 1) 创建安全管理器SecurityManager; 2) 创建基于Akka的分布式消息系统ActorSystem; 3) 创建Map任务输出跟踪器mapOutputTracker; 4) 实例化Shuffl...
2018-05-21 17:28:46 1703
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人