![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 77
v_w50
这个作者很懒,什么都没留下…
展开
-
Spark编程基础(Python版)RDD编程
一、创建RDD 1、textFile(url)从文件系统中加载数据创建RDD: url可以是本地文件系统的地址,也可以是分布式文件系统DFS,亦或是Amazon S3地址。 from pyspark import SparkContext,SparkConf #从本地文件系统 lines = sc.textFile("file:///root/class/score.txt") #从分布式文件系统,下面三种写法等价 lines = sc.textFile("hdfs://localhost:9000原创 2022-05-03 15:29:07 · 1252 阅读 · 0 评论 -
spark编程基础(python版)-- RDD基础
一、Hadoop与spark区别 Hadoop虽然已经成为大数据技术的事实标准,但其本身存在很多缺陷。比如,mapreduce计算模型延迟过高,无法实现实时快速计算的需求,只适用于离线批处理,I/O磁盘开销大。 spark在借鉴mapreduce优点同时,很好解决了mapreduce存在的缺陷: 1、spark计算也属于mapreduce计算,但不局限于map和reduce操作; 2、spark提供内计算,中间结果放入内存,提高迭代运算效率; ...原创 2022-05-03 11:49:02 · 1978 阅读 · 0 评论 -
Spark编程基础(Python版)之RDD
在mapreduce框架执行时,会将中间结果写入到稳定存储(磁盘)中,会造成大量的数据复制、磁盘io、序列化开销。RDD提供一个抽象的数据构架,需要将具体的应用逻辑表达为一系列转换处理。 不同的RDD之间的转换形成依赖关系,可以实现管道化,避免中间数据存储。 一、什么是RDD 分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可以分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同的节点上,可以在不同节...原创 2022-03-19 10:29:19 · 2264 阅读 · 0 评论