spark
文章平均质量分 85
病妖
这个作者很懒,什么都没留下…
展开
-
Spark RDD内存数据集分配 用源码让你更快理解原理
文章目录1.先码一个demo2.看结果3.看源码1.先码一个demoobject RDD_Memory_Par { def main(args: Array[String]): Unit = {// TODO 准备环境 val sparkConf = new SparkConf() .setMaster("local[*]") .setAppName("RDD_Me原创 2021-11-03 18:40:10 · 951 阅读 · 0 评论 -
DataFrame与DataSet
一、概述Spark在RDD基础上,提供了DataFrame与DataSet用户编程接口,在跨语言方面具有很好的支持。二、DataFrameDataFrame与RDD一样,都是不可变分布式弹性数据集。不同之处在于RDD中的数据不包含任何架构信息,数据的内部结构可以看作黑盒,因此直接使用RDD时需要开发人员实现特定的函数来完成数据结构的解析;而dataFrame中的数据集类似于关系数据库中的表,按列名存储,具有Schema信息,开发人员可以直接将结构化数据集导入DataFrame。DataFrame的数据原创 2020-08-14 09:09:41 · 734 阅读 · 1 评论