Spark
文章平均质量分 96
DUT_子陌
来吧,一起卷起来吧
展开
-
spark SQL
RDD是数据集合,每条数据就是一个元素,只能对元素进行处理;DataFrame是数据表,每条数据就是表中的一行,并且会给一行划分每一列,可以对每行或者每列的数据进行处理。DataFrame 本质是基于RDD之上增加了Schema信息:DataFrame = RDD + Schema。RDD: 没有Schema,对于RDD,每条数据就是一个Person信息,每个元素代表一个人但是RDD并不清楚每个人有什么信息。支持泛型,RDD[int]、RDD[tuple]、RDD[Person]。DataFrame原创 2023-03-13 10:41:28 · 804 阅读 · 0 评论 -
spark 核心RDD
RDD(Resilient Distributed Dataset)叫做弹性 分布式 数据集,是Spark中最基本的数据抽象,代表一个不可变类型可分区、里面的元素可并行计算的集合。可以认为RDD是分布式的"列表List或数组Array"(与其说是列表不如说是元组【其本身是不可变类型,只能通过血缘追踪】)原创 2023-03-13 10:36:56 · 244 阅读 · 0 评论 -
Spark 基础概念
Spark1. Spark基础概念1.1 Spark概述1.2 Spark 四大特点运行速度快1.3 Spark 框架1.4 Spark 运行模式集群模式1.5 spark-shell1.6 Spark Application程序1.6 Spark Standalone集群模式 介绍Standalone架构程序执行阶段单点故障(SPOF)问题2. Spark运行过程2.1 WordCount代码入门2.2 WordCountTopKey 代码2.3 部署模式DeployMode在Standalone集群中部原创 2023-03-13 10:34:18 · 2756 阅读 · 0 评论