spark
Shadow_mi
数据挖掘、机器学习
展开
-
spark 中如何划分stage?
1.从hdfs中读取文件后,创建 RDD 对象 2.DAGScheduler模块介入运算,计算RDD之间的依赖关系。RDD之间的依赖关系就形成了DAG 3.每一个JOB被分为多个Stage,划分Stage的一个主要依据是当前计算因子的输入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间的消息传递开销。以下面一个按 A-Z 首字母分类,查找相同首字母下不同姓名总个数的例子来看原创 2016-07-04 16:06:39 · 12789 阅读 · 0 评论 -
Spark Shuffle实现 (转载)
原文链接:http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/ 对于大数据计算框架而言,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Spark的shuffle实现,并将之与MapReduce进行简单对比。本文的介绍顺序是:shuffle基本概念,MapReduce Shuffle发展转载 2016-07-05 09:44:56 · 390 阅读 · 0 评论 -
spark 的相关配置
export HADOOP_HOME= /home/hadoop/hadoop-2.0.0-cdh4.5.0export HADOOP_CONF_DIR= $HADOOP_HOME/etc/hadoopSPARK_EXECUTOR_INSTANCES=2SPARK_EXECUTOR_CORES=1SPARK_EXECUTOR_MEMORY=400MSPARK_DRIVER_MEMORY=400MSP原创 2016-07-05 15:54:17 · 486 阅读 · 0 评论 -
Xms Xmx PermSize MaxPermSize 区别
1.参数的含义 -vmargs -Xms128M -Xmx512M -XX:PermSize=64M -XX:MaxPermSize=128M -vmargs 说明后面是VM的参数,所以后面的其实都是JVM的参数了 -Xms128m JVM初始分配的堆内存 -Xmx512m JVM最大允许分配的堆内存,按需分配 -XX:PermSize=64M JVM初始分配的非堆内存 -XX:MaxP转载 2016-09-18 17:00:07 · 555 阅读 · 0 评论 -
HIVE 中内连接(JOIN ON) 与 LEFT SEMI JOIN 分析
由于HIVE中都是等值连接,在JOIN使用的时候,有两种写法在理论上是可以达到相同的效果的。 由于HIVE中都是等值连接,在JOIN使用的时候,有两种写法在理论上是可以达到相同的效果的,但是由于实际情况的不一样,子表中数据的差异导致结果也不太一样。 写法一: select a.bucket_id, a.search转载 2016-10-09 08:47:13 · 3104 阅读 · 0 评论