大数据-spark
mt0803
玩大数据的一个码农
展开
-
spark 1.6 preview
A new Dataset API Autoatic memory configuration Optimized state storage in Spark Streaming Pipeline persistence inSpark MLA new Dataset APIRDD API 使用非常灵活,但是在某些case下,比较难于优化执行。DataFrame API内部执行虽然有优化,但是la原创 2015-12-29 17:43:52 · 551 阅读 · 0 评论 -
Spark DataFrame 介绍
DataFrame的目标是让开发大数据的并行程序更加简单,受众更加广泛。DF受R & Python(Pandas)启发,被设计成支持 Big Data & Data Science Application. 作为RDD API的扩展,他的特性如下: * 高扩展性 * 广泛支持各种数据格式 & 存储系统 * Spark Sql Catalyst Optimizer提供执行优化和代码生成 * 和原创 2016-01-05 17:35:08 · 1426 阅读 · 0 评论 -
Spark Sort Based Shuffle 内存使用情况
Spark Shuffle Write 调用链:ShuffleMapTask ---> SortShuffleManager ---> SortShuffleWriter ---> ExternalSorter在ExternalSorter发生了分区数据写内存、聚合、Spill、Merge、写文件操作。这里的内存结构为:PartitionedAppen原创 2015-12-25 20:55:36 · 659 阅读 · 0 评论 -
Spark Sort Based Shuffle 流程简单分析
写文件大致路径写文件大致路径入口是:ShuffleMapTask.runTask()val manager = SparkEnv.get.shuffleManager writer = manager.getWriter[Any, Any](dep.shuffleHandle, partitionId, context) writer.write(rdd.iterator(partition, co原创 2015-12-25 21:03:49 · 1188 阅读 · 0 评论