- 博客(3)
- 收藏
- 关注
原创 spark学习笔记
Spark基本信息 1. RDD 是什么? 一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 2. RDD 的数据结构? 一个分区列表,每个分区里是RDD的部分数据(或称数据块)。 一个依赖列表,存储依赖的其他RDD。 一个名为 compute 的计算函数,用于计算 RDD 各分区的值。 分区器(可选),用于键/值类型的 RDD,比如某个 RDD 是按散列来分区。 计算各分区时优先的位置列表(可选),比如从 HDFS 上的文件生成 RDD 时,RDD分区的位置优
2021-12-02 22:19:04 114
转载 提问的智慧
提问的智慧 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nUAl8MlT-1638282409561)(https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)] How To Ask Questions The Smart Way Copyright © 2001,2006,2014 Eric S. Raymond, Rick Moen 本指南英文版版权为 Eric S. Ray
2021-11-30 22:32:07 207
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人