spark
文章平均质量分 68
DPnice
这个作者很懒,什么都没留下…
展开
-
spark2.3 RDD之reduce源码解析
reduce源码/** * Reduces the elements of this RDD using the specified commutative and * associative binary operator. */def reduce(f: (T, T) => T): T = withScope { val cleanF = sc.clean(f) val ...原创 2018-04-23 19:21:03 · 1241 阅读 · 0 评论 -
Spark on Yarn 解惑
一:Hadoop Yarn解析 1,Yarn是Hadoop推出整个分布式(大数据)集群的资源管理器,负责资源的管理和分配,基于Yarn我们可以在同一个大数据集群上同时运行多个计算框架,例如Spark、MapReduce、Storm等; 2,Yarn基本工作流程如下图所示: 注意:Container要向NodeManager汇报资源...转载 2018-08-21 11:29:24 · 246 阅读 · 0 评论 -
Spark:找到IP范围重复的(交集,包含)IP范围
目标:找到IP范围重复的IP范围数据:id,ip_start,ip_end,longitude,latitude,province,city,unit,operator,type,name,network_area,number,raw_data***--7845-46f2-***--cce40f54d449,1******3,1******0,,,兵团,第六师,*公安局,局域网计算机...原创 2018-08-21 17:51:14 · 598 阅读 · 0 评论 -
Spark的Shuffle过程介绍
好文:https://blog.csdn.net/yuanxiaojun1990/article/details/50360261Spark的Shuffle过程介绍Shuffle WriterSpark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wide dependency的group by key。Sp...转载 2018-08-24 18:47:31 · 402 阅读 · 0 评论 -
Spark的Shuffle过程介绍图
原创 2018-08-24 18:48:16 · 279 阅读 · 0 评论 -
Spark:内存管理模型及架构
上图引入了很多术语:"Executor","Task","Cache","Worker Node"等等,当我开始学习Spark的时候,这几乎是整个互联网上唯一一张关于Spark架构的图了,我个人觉得该图缺失了一些很重要的概念或者是描述的 任何Spark的进程都是一个JVM进程,既然是一个JVM进程,那么就可以配置它的堆大小(-Xmx和-Xms),但是进程怎么使用堆内存和为什么需要它呢?...转载 2018-08-30 14:37:57 · 498 阅读 · 0 评论 -
在Alluxio1.8上运行Spark
软件版本:软件版本jdkjdk1.8.0_191zookeeperzookeeper-3.4.12hadoophadoop-2.8.5alluxioalluxio-1.8.0-hadoop-2.8sparkspark-2.3.2-bin-hadoop2.7spark版本不对应,不推荐使用安装配置spark:解压:$ tar -...原创 2018-12-03 18:20:22 · 371 阅读 · 0 评论 -
SparkSql读取pgxl数据缓存到Alluxio再计算
http://www.alluxio.com/blog/effective-spark-rdds-with-alluxioSpark的RDD本身数据就是存储到内存,但是如果数据量超大 spark cache 到内存 会导致性能显着下降。Alluxio允许将更大的数据集保存在内存中,从而实现更快的Spark应用程序。Alluxio还支持在内存中与多个Spark应用程序共享相同的数据集,这可以提高...原创 2018-12-28 18:21:19 · 362 阅读 · 0 评论 -
Spark+Alluxio性能调优十大技巧
Spark+Alluxio性能调优十大技巧由于统一访问对象存储(如S3)和HDFS数据的场景的出现和普及,Apache Spark结合Alluxio的大数据栈越来越受欢迎。此外,越来越流行的计算与存储分离的架构导致计算端查询延迟增大。因此,Alluxio常被用作贴近计算端的热数据存储以提高性能。为了能够获得最佳性能,用户需要像使用其他技术栈组合一样遵循最佳的实战经验。本文介绍了在Alluxio上...转载 2019-01-09 16:52:38 · 584 阅读 · 0 评论 -
Spark:宽依赖和窄依赖
站在父RDD角度 窄依赖:一对一站在父RDD角度 宽依赖:一对多宽依赖和窄依赖: 宽依赖:父RDD的分区被子RDD的多个分区使用 例如 groupByKey、reduceByKey、sortByKey等操作会产生宽依赖,会产生shuffle窄依赖:父RDD的每个分区都只被子RDD的一个分区使用 例如map、filter、union等操作会产生窄依赖 注意:...转载 2018-08-28 11:50:00 · 666 阅读 · 0 评论 -
spark案例:IP范围重复去重问题解决
两个IP范围:10.100.1.1-10.100.1.25410.100.1.1-10.100.2.62转换成 10.100.1.1-10.100.1.254或者两个IP范围:10.100.1.100-10.100.1.15010.100.1.120-10.100.1.250转换成 10.100.1.100-10.100.1.250IP文件部分:10.1.0.0...原创 2018-08-10 17:19:51 · 608 阅读 · 0 评论 -
深入理解spark Stage
窄依赖和宽依赖窄依赖:指父RDD的每一个分区最多被一个子RDD的分区所用,表现为一个父RDD的分区对应于一个子RDD的分区,和两个父RDD的分区对应于一个子RDD 的分区。图中,map/filter和union属于第一类,对输入进行协同划分(co-partitioned)的join属于第二类。宽依赖:指子RDD的分区依赖于父RDD的所有分区,这是因为shuffle类操作,如图中的groupByKe...转载 2018-04-12 11:45:12 · 1226 阅读 · 1 评论 -
Spark2.3 RDD之 treeAggregate / treeReduce源码解析
说在前面:reduce/aggregate 操作开销比较大,而treeReduce/treeAggregate 可以通过调整深度来控制每次reduce的规模。treeReduce源码: /** * Reduces the elements of this RDD in a multi-level tree pattern. * * @param depth suggested d...原创 2018-04-25 18:08:48 · 2093 阅读 · 0 评论 -
spark2.3 RDD之 map 源码解析
spark map源码/** * Return a new RDD by applying a function to all elements of this RDD. */ def map[U: ClassTag](f: T => U): RDD[U] = withScope { val cleanF = sc.clean(f) new MapPartit...原创 2018-04-26 13:57:53 · 2616 阅读 · 0 评论 -
Spark2.3 RDD之 filter源码解析
spark filter源码: /** * Return a new RDD containing only the elements that satisfy a predicate. */ def filter(f: T => Boolean): RDD[T] = withScope { val cleanF = sc.clean(f) new MapPa...原创 2018-04-26 17:37:30 · 2019 阅读 · 2 评论 -
Spark2.3 RDD之flatMap源码解析
Spark flatMap 源码: /** * Return a new RDD by first applying a function to all elements of this * RDD, and then flattening the results. */ def flatMap[U: ClassTag](f: T => TraversableOn...原创 2018-04-26 14:39:23 · 2718 阅读 · 0 评论 -
Spark2.3 RDD之 distinct 源码浅谈
distinct 源码:/** * Return a new RDD containing the distinct elements in this RDD. */def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope { map(x => (x, null))...原创 2018-04-26 18:09:39 · 2191 阅读 · 0 评论 -
Spark RDD 之 repartition/coalesce 源码浅谈
repartition: /** * Return a new RDD that has exactly numPartitions partitions. * * Can increase or decrease the level of parallelism in this RDD. Internally, this uses * a shuffle to ...原创 2018-04-27 17:40:21 · 1866 阅读 · 0 评论 -
SparkSQL 从 MySql 中表连接查询数据到 ElasticSearch
前言:因为需要需要将 mysql 中的 3张表连接查询 最后将数据导入es 中需要的jar包: <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> ...原创 2018-05-07 17:03:14 · 1167 阅读 · 0 评论 -
spark读写seaweedfs
软件版本:软件版本压缩包包名seaweedfsseaweedfs-1.24linux_amd64.tar.gzhadoop2.7.1spark2.3.1依赖jar包版本mvnrepositoryseaweedfs-hadoop-client1.0.2https://mvnrepository.com/artifact/...原创 2019-05-05 17:01:21 · 547 阅读 · 0 评论