![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
Chasity_x
这个作者很懒,什么都没留下…
展开
-
大数据RDD编程
RDD编程(4)–文件系统数据读写 一、本地文件系统的数据读写 saveAsTextFile后面接的是一个目录 把目录名称放进textFile中就会加载该目录下的所有内容 二、分布式文件系统HDFS的数据读写原创 2021-12-22 23:11:46 · 1115 阅读 · 0 评论 -
大数据RDD编程
RDD编程(3)——持久化 持久化简述 第二次行动操作会重复上面的所有操作,RDD会多次重复生成进行计算,这样代价较大。如果能够把第一次的结果缓存起来就好了,那为了解决这个问题,我们就会用到下面我们讲的持久化。 参数类型 (1).presist(MEMORY_ONLY)方法 把RDD作为反序列化的对象存在JVM中,如果内存不足就按照先进先出的原则把内存里的内容替换掉 (2).presist(MEMORY_AND_DISK)方法 同时保存在内存和磁盘,优先保存内存,内存保存不下的会保存到磁盘上原创 2021-12-21 00:03:38 · 1167 阅读 · 0 评论 -
大数据RDD编程
RDD编程(2) RDD操作(转换操作filter,map,flatMap)原创 2021-12-20 23:37:04 · 903 阅读 · 0 评论 -
大数据RDD编程
RDD编程(1)——RDD创建: 方法:通过并行集合(数组),从文件系统中加载数据 1. 从文件系统中加载数据 本地文件加载: file:/// 从本地文件word.text中把它从磁盘中加载进来,加载 到内存,生成一个RDD - 每一个RDD元素是字符串类型(文本文件每一行都是一个字符串) 三种表达方式等价,都是放在当前用户主目录下 2.通过并行集合(数组)创建RDD SparkContext对象中的Parllelize方法 ...原创 2021-12-20 00:02:39 · 425 阅读 · 0 评论