SparkRDD
记录关于sparkRDD的用法
一碗竹叶青
985硕士研究生,AI算法工程师,任职于腾讯,百度等公司,希望充当AI布道者,用最通俗易懂的语言普及AI的原理和内核,让更多人认识AI,学习AI,使用AI。希望交流请VX:tianming608
展开
-
删除hdfs路径数据和添加hdfs数据
删去hdfs的数据和添加hdffs数据val conf = new SparkConf().setMaster("yarn-cluster")conf.set("spark.sql.shuffle.partitions", shufflePart)val hadoopConf: Configuration = sc.hadoopConfigurationvar sngfs = new Path("hdfs://ss-sng-dc-v2/").getFileSystem(hadoopConf)va原创 2020-10-30 13:12:53 · 531 阅读 · 1 评论 -
创建键值对RDD
键值对RDD的创建第一种创建方式:从文件中加载(map函数实现)scala> val lines = sc.textFile("file:///usr/local/spark/mycode/pairrdd/word.txt")lines: org.apache.spark.rdd.RDD[String] = file:///usr/local/spark/mycode/pairrdd/word.txt MapPartitionsRDD[1] at textFile at <conso原创 2020-10-30 13:07:25 · 792 阅读 · 0 评论 -
broadcast广播变量常见问题
https://www.jianshu.com/p/3bd18acd2f7f广播变量定义:broadcast 就是将数据从一个节点发送到其他各个节点上去。这样的场景很多,比如 driver 上有一张表,其他节点上运行的 task 需要 lookup 这张表,那么 driver 可以先把这张表 copy 到这些节点,这样 task 就可以在本地查表了。问题1:为什么只能broadcast只读的变量?就涉及一致性的问题,如果变量可以被更新,那么一旦变量被某个节点更新,其他节点要不要一块更新?如果多个节点原创 2020-10-30 12:06:29 · 941 阅读 · 0 评论 -
Spark的共享变量(广播变量和累加器)
https://blog.csdn.net/happyAnger6/article/details/46576831https://www.cnblogs.com/xlturing/p/6652945.html共享变量:我们知道Spark是多机器集群部署的,分为Driver/Master/Worker,Master负责资源调度,Worker是不同的运算节点,由Master统一调度,而Driver是我们提交Spark程序的节点,并且所有的reduce类型的操作都会汇总到Driver节点进行整合。节点之间原创 2020-10-30 12:05:12 · 427 阅读 · 0 评论 -
Spark的rdd创建与操作
RDD创建RDD可以通过两种方式创建:第一种:读取一个外部数据集,从本地加载数据集或者从HDFS文件系统,HBASE,Cassandra,AmazonS3等外部数据源中加载数据集。第二种:调用SparkContext的parmallelize方法,在Driver中一个已经存在的集合(数组)上创建。从文件系统中加载数据创建RDDSpark采用textfile()方法从文件系统中加载数据创建RDD,该方法把文件的URL作为参数,这个URL可以是本地文件系统的地址,或者是分布式文件系统HDFS的地址,或原创 2020-10-30 12:03:48 · 2759 阅读 · 0 评论 -
SparkRDD简介
Spark的核心是建立在统一的抽象RDD之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》。1.RDD设计背景在实际应用中,存在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具,这些应用场景的共同之处是,不同计算阶段之间会重用中间原创 2020-10-30 12:01:28 · 279 阅读 · 0 评论