Spark
数据处理引擎
CoreDao
软件工程学习者 | 学习无止境,路上且行且珍惜
展开
-
Spark相关配置优先级
代码(开始输入就写死了)命令行(最好,灵活)文件(默认,可修改)原创 2021-03-13 22:03:25 · 305 阅读 · 0 评论 -
spark-yarn-cluster任务提交方式Logs出现Fails且无法访问
A1 原因提交方式:注意用yarn-cluster提交方式的命令日志没有收集A2 解决用yarn-cluster提交方式的命令命令:./spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.12-2.4.6.jar 10 或者 ./spark-submit --master yarn-clust原创 2021-03-11 22:21:20 · 305 阅读 · 0 评论 -
宽窄依赖影响的是什么?
stage原创 2021-03-11 09:44:41 · 202 阅读 · 0 评论 -
判断flatmap、reduceByKey、GroupByKey算子的宽窄
A1 思路添加分区参数看是否报错看源码参数是否有与分区相关的A2 具体flatmap(窄):def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U] = withScope { val cleanF = sc.clean(f) new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.flatMap(cleanF))}原创 2021-03-10 10:10:40 · 406 阅读 · 0 评论 -
spark中如何判断算子宽窄?
A1 方法:一种方法:看参数是否可以改变分区数可以看源码中参数是否有与分区相关的,比如numPartitionsA2 例子:sortBy和map比较:sortBy最后有numPartitions,添加不报错map后加上数字(表示分区数的)会报错A3 解释看sortBy和map源码:sortBy中第三个参数是numPartitionsdef sortBy[K]( f: (T) => K, ascending: Boolean = true,原创 2021-03-10 10:07:44 · 129 阅读 · 0 评论 -
spark中distinct是如何实现的?
A1 总述:去重A2 思路:map -> resuceByKey -> mapA3 源码:3.1 有参: /** * Return a new RDD containing the distinct elements in this RDD. */ def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope { map(x => (x, nu原创 2021-03-09 21:40:17 · 1077 阅读 · 0 评论 -
为什么textFile用string去接收
因为spark中textFile读文件的函数沿用的MR,MR读文件是行读取器,一行一行读出来,只能string去接收。源码:/** * Read a text file from HDFS, a local file system (available on all nodes), or any * Hadoop-supported file system URI, and return it as an RDD of Strings. * @param path path to th原创 2021-03-08 19:57:21 · 151 阅读 · 0 评论 -
spark启动端口
位置:spark的conf目录下sbin的start-master.sh中vim start-master.sh可编辑默认:master的端口是 7077WEBUI的端口是 8080原创 2021-03-08 19:54:38 · 377 阅读 · 0 评论 -
spark处理速度为什么比MapReduce快?
速度快这个词对于任何架构需要针对应用场景来描述。官网的这张图下边有一行字:Logistic regression in Hadoop and Spark迭代场景下spark的处理速度大致是hadoop的100倍。????️原因那么快的原因主要有两点:基于内存,spark中间结果不落盘(hadoop频繁落盘)有DAG(有向无环图):来切分任务的执行先后顺序。????️对比:MR(mapreduce):Spark:可以看出MR中间频繁读写落盘,而spark则中间结果一直在内存中。原创 2021-03-08 15:59:27 · 769 阅读 · 0 评论