Spark基础知识

最新推荐文章于 2023-11-06 11:00:32 发布

Scapel

最新推荐文章于 2023-11-06 11:00:32 发布

阅读量497

点赞数

分类专栏： Spark

Spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Spark为什么比Hadoop快？

1、Spark基于内存
   Spark默认情况下将处理过程中的数据保存在内存中，而Hadoop的计算结果每次都保存到磁盘，增加了I/O读写的时间。这也导致在迭代计算时Spark速度愈发快于Hadoop。
2、Spark基于DAG
   Spark的执行任务事先已经通过DAG规划，任务管理更加精细化。
3、移动计算而非移动数据
   RDD的partitions就近读取节点上的数据进行计算。

Spark的运行模式有哪几种？

1、本地模式
2、Standalone
3、第三方资源调度框架（Yarn、Mesos）

生成DataFrame的方式有哪些？

1、从RDD转换为DataFrame
   （1）某一类的RDD转换为DataFrame
           val df = class_rdd.toDF
   （2）结构化的RDD转换为DataFrame
              val df = sparkSession.createDataFrame(row_rdd,schema)
2、从文件读取
   （1）parquet文件
          spark.read.load(path)
   （2）json文件
          spark.read.json(path)

Spark的操作有哪些？

transformation

Spark的persist如何选择？

选择persist

Spark中Scala的隐式转换

implicit conversion

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark基础知识

Spark为什么比Hadoop快？1、Spark基于内存 Spark默认情况下将处理过程中的数据保存在内存中，而Hadoop的计算结果每次都保存到磁盘，增加了I/O读写的时间。这也导致在迭代计算时Spark速度愈发快于Hadoop。2、Spark基于DAG Spark的执行任务事先已经通过DAG规划，任务管理更加精细化。3、移动计算而非移动数据 RDD的partit...
复制链接

扫一扫

专栏目录

Scapel CSDN认证博客专家 CSDN认证企业博客

码龄6年

4: 原创

34万+: 周排名

146万+: 总排名

5万+: 访问

: 等级

383: 积分

5: 粉丝

23: 获赞

14: 评论

65: 收藏

私信

关注

热门文章

分类专栏

Flink 1篇
Spark 3篇
Java 1篇
Redis 2篇
Kafka 1篇
Flume 1篇

最新评论

Java实现延时的方法
LYH--宇航: 写的真好,欢迎回踩
Flink SQL 批处理使用HOP详解
重生之我在异世界打工: 你好请问你这是在sqlclient中运行还是在代码中，我两种方法都会报错。批模式 field [$f0] not found; input fields are: [user_id, url, click_ts] 意思是group by的字段不正确，我group by tumble（）的
Spark中foreachRDD、foreachPartition和foreach解读
杀疯了杀疯了: foreachRDD里面的注释有点误解。each rdd有歧义。并不是多个rdd，而是说的每个时间周期的rdd。其实一个时间周期内也就一个rdd而已。跟transform相似。都是对一个rdd做操作。
Spark中foreachRDD、foreachPartition和foreach解读
远·坂·凛回复时间会抚平一切: excuter端。
Spark中foreachRDD、foreachPartition和foreach解读
远·坂·凛回复 7788lu: 因为要保证连接对象是单例并且在executor需要时才创建，也就是每一个从节点上的JVM都有一份自己的连接对象

最新文章

目录

目录

分类专栏

Flink 1篇
Spark 3篇
Java 1篇
Redis 2篇
Kafka 1篇
Flume 1篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。