SparkRDD_一碗竹叶青的博客-CSDN博客

SparkRDD

关注

记录关于sparkRDD的用法

关注数：文章数：6 文章阅读量：5728 文章收藏量：5

作者: 一碗竹叶青

985硕士研究生，AI算法工程师，任职于腾讯，百度等公司，希望充当AI布道者，用最通俗易懂的语言普及AI的原理和内核，让更多人认识AI，学习AI，使用AI。希望交流请VX：tianming608

展开

删除hdfs路径数据和添加hdfs数据

删去hdfs的数据和添加hdffs数据val conf = new SparkConf().setMaster("yarn-cluster")conf.set("spark.sql.shuffle.partitions", shufflePart)val hadoopConf: Configuration = sc.hadoopConfigurationvar sngfs = new Path("hdfs://ss-sng-dc-v2/").getFileSystem(hadoopConf)va

原创 2020-10-30 13:12:53 · 531 阅读 · 1 评论
创建键值对RDD

键值对RDD的创建第一种创建方式：从文件中加载（map函数实现）scala> val lines = sc.textFile("file:///usr/local/spark/mycode/pairrdd/word.txt")lines: org.apache.spark.rdd.RDD[String] = file:///usr/local/spark/mycode/pairrdd/word.txt MapPartitionsRDD[1] at textFile at <conso

原创 2020-10-30 13:07:25 · 792 阅读 · 0 评论
broadcast广播变量常见问题

https://www.jianshu.com/p/3bd18acd2f7f广播变量定义：broadcast 就是将数据从一个节点发送到其他各个节点上去。这样的场景很多，比如 driver 上有一张表，其他节点上运行的 task 需要 lookup 这张表，那么 driver 可以先把这张表 copy 到这些节点，这样 task 就可以在本地查表了。问题1：为什么只能broadcast只读的变量?就涉及一致性的问题，如果变量可以被更新，那么一旦变量被某个节点更新，其他节点要不要一块更新？如果多个节点

原创 2020-10-30 12:06:29 · 941 阅读 · 0 评论
Spark的共享变量（广播变量和累加器）

https://blog.csdn.net/happyAnger6/article/details/46576831https://www.cnblogs.com/xlturing/p/6652945.html共享变量：我们知道Spark是多机器集群部署的，分为Driver/Master/Worker，Master负责资源调度，Worker是不同的运算节点，由Master统一调度，而Driver是我们提交Spark程序的节点，并且所有的reduce类型的操作都会汇总到Driver节点进行整合。节点之间

原创 2020-10-30 12:05:12 · 427 阅读 · 0 评论
Spark的rdd创建与操作

RDD创建RDD可以通过两种方式创建：第一种：读取一个外部数据集，从本地加载数据集或者从HDFS文件系统，HBASE，Cassandra，AmazonS3等外部数据源中加载数据集。第二种：调用SparkContext的parmallelize方法，在Driver中一个已经存在的集合（数组）上创建。从文件系统中加载数据创建RDDSpark采用textfile（）方法从文件系统中加载数据创建RDD，该方法把文件的URL作为参数，这个URL可以是本地文件系统的地址，或者是分布式文件系统HDFS的地址，或

原创 2020-10-30 12:03:48 · 2759 阅读 · 0 评论
SparkRDD简介

Spark的核心是建立在统一的抽象RDD之上，使得Spark的各个组件可以无缝进行集成，在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》。1.RDD设计背景在实际应用中，存在许多迭代式算法（比如机器学习、图算法等）和交互式数据挖掘工具，这些应用场景的共同之处是，不同计算阶段之间会重用中间

原创 2020-10-30 12:01:28 · 279 阅读 · 0 评论

SparkRDD

作者: 一碗竹叶青

删除hdfs路径数据和添加hdfs数据

创建键值对RDD

broadcast广播变量常见问题

Spark的共享变量（广播变量和累加器）

Spark的rdd创建与操作

SparkRDD简介