第一课：理解Spark 的三代API

最新推荐文章于 2024-10-10 17:12:11 发布

chuanshu8252

最新推荐文章于 2024-10-10 17:12:11 发布

阅读量136

点赞数

文章标签：大数据 java scala

原文链接：https://my.oschina.net/u/1449867/blog/719774

版权

Spark第一代API:RDD

RDD: 五大核心特征：

* - A list of partitions

* - A function for computing each split

* - A list of dependencies on other RDDs

* - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)

* - Optionally, a list of preferred locations to compute each split on (e.g. block locations for

* an HDFS file)

Spark第二代API：DataFrame

DataFrame: 核心特征：

* - 包含了以Row为单位的每行数据的列的信息，此时DataFrame就是Table；

* - Tungsten：新的执行引擎

* - Catalyst：新的语法解析框架

提升计算效率、减少数据读取、底层计算优化；

Spark第三代API：DataSet

DataSet的核心价值和好处：Encoder

* - 编译时的类型安全检查，不需要在执行时期才发现类型不匹配；

* - 性能的极大的提升

* - 内存使用极大降低、减少GC...

* -极大的减少网络数据的传输...

* -极大的极少采用Scala和Java编程的代码的差异性...

补充：

1，DataSet会同时可以兼顾Functional和Relational Programming；

2，DataSet可以统一流计算、SQL、ML等的API编程；

3，DataSet最最重要的是效率：底层Tungsten的优化、Encoder、数据在内存和磁盘等的存储等等；

转载于:https://my.oschina.net/u/1449867/blog/719774

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chuanshu8252

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark视频王家林大神第1课： 30分钟彻底理解Spark核心API发展史：RDD、DataFrame、DataSet

段智华的博客

01-24

916

Spark视频王家林大神第1课： 30分钟彻底理解Spark核心API发展史：RDD、DataFrame、DataSet本节通过Spark核心API的发展史，带领大家学习和理解Spark的内幕，在Spark的发展史上，经历了三代API：第一代是RDD、第二代是DataFrame、第三代是DataSet。RDD是Spark中绝对的核心和基础性的抽象，DataFrame是Spark 1.3.x推出的，

Spark 常用 API

Java_Road_Far的博客

12-04

1516

一、 map：返回一个新的 RDD, 该 RDD 是由原 RDD 的每个元素经过函数转换后的值组成，就是对 RDD 中的数据做转换 /** * map: 返回一个新的 RDD, 该 RDD 是由原 RDD 的每个元素经过函数转换后的值组成, * 就是对 RDD 中的数据做转换 */ def main(args: Array[String]): Unit = { val conf: Sp...

参与评论您还未登录，请先登录后发表或查看评论

【spark-基础】基础概念及常见api

alexliu2360的专栏

03-21

3368

能今天做好的事就不要等到明天。以梦为马，学习趁年华。 1、学习路线一份好的roadmap很重要 2、技术笔记 2.1 RDD RDD是弹性分布式数据集，是一组不可变的JVM对象的分布及，可以执行高速运算，是spark的核心。 2.1.1 创建RDD # 集合生成ParallelCollectionRDD data = sc.parallelize([('alex',22),('alex',22),('alex',22),('alex',22)]) # 文件 4代表分区数生成MapPa.

Spark知识点总结

weixin_50528552的博客

03-11

911

Spark知识点总结

2024 Python3.10 系统入门+进阶（一）：Python编程基础

Amo Xiang的博客

03-15

1740

第一课 大数据技术之Fink1.13的实战学习-部署使用和基础概念

QnHyn

06-11

1792

Flink

zhihu spark集群,书籍,论文

weixin_34148340的博客

06-20

3426

spark集群中的节点可以只处理自身独立数据库里的数据，然后汇总吗？修改我将spark搭建在两台机器上，其中一台既是master又是slave，另一台是slave，两台机器上均装有独立的mongodb数据库。我是否可以让它们只统计自身数据库的内容，然后将结果汇总到一台服务器上的数据库里？目前我的代码如下，但是最终只统计了master里的数据，另一个worker没有统计上。 ...

机器学习&深度学习入门学习资料大全(一)

知行_那片天

05-29

7149

机器学习&深度学习入门学习资料大全(一)

【课程笔记】分布式计算系统徐辰

HERODING23的博客

06-24

1814

分布式系统：概念与设计》认为：分布式系统是若干独立计算机的集合，这些计算机对于用户来说是就像一个单机的系统。作用于若干独立计算机之上，使得这些计算机能够协同执行计算完成某项应用的软件系统。归根结底是为了解决某些类别的应用问题而设计的分布式系统。分类计算密集型应用：CPU 处理能力成为了首要限制因素。数据密集型应用：I/O 带宽成为了首要限制性因素（关键）。可靠的容错保障应该保证故障前后消息的一致性。至多一次：消息可能丢失至少一次：不会丢失但可能重复准确一次：不丢失不重复。

机器学习(Machine Learning)&深度学习(Deep Learning)资料

weixin_30756499的博客

07-07

1万+

##机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)---#####注:机器学习资料[篇目一](https://github.com/ty4z2008/Qix/blob/master/dl.md)共500条,[篇目二](https://github.com/ty4z2008/Qix/blob/master/dl2.md)开始更新...

机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总

ZhangPY的专栏

02-28

6716

《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning. 《Deep Learning in Neural Networks: An Overview》介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最

Flink自学教程

热门推荐

weixin_43342277的博客

10-05

2万+

Flink自学教程 1.1.Flink的引入这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有 Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink，也就在这个时候默默的发展着。在国外一些社区，有很多人将...

大数据分析入门概述

m0_47498690的博客

10-04

2678

本文旨在为有意向学习数据分析、数据开发等大数据方向的初学者提供一个学习指南，当然如果你希望通过视频课程的方式快速入门，B站UP主戴戴戴师兄的课程质量很高，并且适合初学者快速入门。本文的目的旨在为想要了解大数据但不知道该学习什么内容的初学者介绍大数据相关的各类工具以及各项技能。后续会按照本文提到的关键字逐条更新更详细的内容以及具体案例。SQL（Structured Query Language）是一种标准化的编程语言，用于管理关系数据库管理系统（RDBMS），如MySQL、PostgreSQL、Oracle、

大数据行业应用实训室建设方案

whwzzc的博客

10-08

1131

大数据项目实训平台确实是一个功能强大的工具，它不仅能够满足学校各种形式的实训教学活动需求，如实训周、小学期、综合课程设计等，还能提供小组分工协作的支持，为每个项目小组分配一套虚拟服务器集群，确保实训的顺利进行。唯众大数据教学云平台是一个开放式的课程平台，除了唯众的课程体系之外，老师可自主开发在线课程，支持Word、PPT、PDF、视频等常见课件直接转换成在线课程，从而让老师很方便的将专业基础课程迁移到平台上，便于构建完整的大数据、云计算、人工智能专业课程体系。此外，实训资源的不足严重阻碍了学生技能的培养。

netty之SpringBoot+Netty+Elasticsearch收集日志信息数据存储

CSDN_LiMingfly的博客

10-04

795

将大量的业务以及用户行为数据存储起来用于分析处理，但是由于数据量较大且需要具备可分析功能所以将数据存储到文件系统更为合理。尤其是一些互联网高并发级应用，往往数据库都采用分库分表设计，那么将这些分散的数据通过binlog汇总到一个统一的文件系统就显得非常有必要。#开发环境环境准备windows安装包下载注意 es是以来java环境所以需要安装jdk 支持1.7以上es-hander下载可视化操作插件@Id//姓名//年龄//级别//时间//电话//邮箱//地址。

消息队列介绍

weixin_38703379的博客

10-09

262

优点：性能单台（12000+），性能较好，管理界面较丰富。在互联网公司也有较多应用，有多个语言的成熟客户端。优点：性能单台（10万级），模型简单，接口易用。在阿里巴巴大规模应用。优点：性能单台（6000+）成熟，已经在很多公司得到应用。各种协议支持好，有多个语言的成熟客户端。缺点：运维难度大，对ZooKeeper强依赖。缺点：内部机制很难了解，也意味很难定制和掌控。缺点：性能较弱，缺乏大规模吞吐的场景的应用，有江河日下之感。优点：天生分布式性能最好，所以常见大数据领域。缺点：文档少，支持的语言较少。

打破常规，BD仓储物流的效能提升！