Spark3000门徒第15课RDD创建内幕彻底解密总结

最新推荐文章于 2016-08-11 21:51:43 发布

Tony991524

最新推荐文章于 2016-08-11 21:51:43 发布

阅读量63

点赞数

原文链接：http://www.cnblogs.com/haitianS/p/5140789.html

版权

今晚听了王家林老师的第15课RDD创建内幕彻底解密，课堂笔记如下：

Spark driver中第一个RDD：代表了Spark应用程序输入数据的来源.后续通过Transformation来对RDD进行各种算子的转换实现算法

创建RDD的方法：
1，使用程序中的集合创建RDD;2，使用本地文件系统创建RDD；3，使用HDFS创建RDD 4，基于DB创建RDD
5，基于NoSQL,例如HBase 6，基于S3创建RDD 7，基于数据流创建RDD

不指定并行度，有多少core就用多少core,所以需要资源管理，防止一次就耗光了资源。

reduce是action，不产生新的RDD
spark 的map和fiter以及简单的reduceByKey不需要shuffle，比hadoop快很多。

val rdd = sc.parallelize(numbers,10) 指定并行度10

直接访问hbase,mysql需要考虑数据本地性

后续课程可以参照新浪微博王家林_DT大数据梦工厂：http://weibo.com/ilovepains

王家林中国Spark第一人,微信公共号DT_Spark

转发请写明出处。

转载于:https://www.cnblogs.com/haitianS/p/5140789.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Tony991524

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark学习笔记10:创建RDD

balabalalibala的博客

05-17

1698

目录一、什么是RDD （一）RDD概念（二）RDD示例（三）RDD主要特征二、做好准备工作（一）准备文件 1、准备本地系统文件 2、启动HDFS服务 3、准备HDFS系统文件（二）启动SparkShell 1、启动Spark服务 2、启动Spark Shell 三、创建RDD （一）从对象集合创建RDD 1、利用parallelize()方法创建RDD 2、利用makeRDD()方法创建RDD 3、总结说明（二）从外部存储创建RDD 1、读取......

Spark：创建RDD

mu_kui的博客

06-20

679

spark学习笔记

参与评论您还未登录，请先登录后发表或查看评论

Spark3000门徒第14课spark RDD解密总结

Tony991524的博客

01-17

今晚听了王家林老师的第14课spark RDD解密，课堂笔记如下： Spark是基于工作集的应用抽象，RDD：Resillient Distributed Dataset是基于工作集的，spark可以对结果重用。位置感知：spark比hadoop更精致。 RDD是lazy的，是分布式函数式编程的抽象，RDD可以看做一个只读的List或者Array。产生的中间结果怎么办? 不能让 ...

Spark3000门徒第七课Spark运行原理及RDD解密总结

Tony991524的博客

01-09

140

今晚听了王家林老师的第七课Spark运行原理及RDD解密，课后作业是：spark基本原理，我的总结如下： 1spark是分布式基于内存特别适合于迭代计算的计算框架 2mapReduce就两个阶段map和reduce，而spark是不断地迭代计算，更加灵活更加强大，容易构造复杂算法。 3spark不能取代hive，hive做数据仓库存储，spark sql只是取代hive的...

Spark3000门徒第11课彻底解密WordCount运行原理总结

Tony991524的博客

01-13

138

今晚听了王家林老师的第11课：彻底解密WordCount运行原理，课堂笔记以及作业如下：在第一个Stage中， def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { assertNotStoppe...

Spark3000门徒第13课Spark内核架构解密总结

01-17

昨晚听了王家林老师的第13课Spark内核架构解密，课堂笔记如下： executor中线程池并发执行和复用，Spark executor, backed by a threadpool to run tasks. 默认一个work为一个Application只开启一个executor。一个worker里executor是多点好还是少点好，看具体情况。 Worker:管理当前Nod...

3000门徒内部训练绝密视频（泄密版）第7课：实战解析Spark运行原理和Rdd解密

tom_8899_li的博客

08-11

754

实战解析Spark运行原理和Rdd解密分布式基于内存（在一些情况下也会基于硬盘）特别适合于迭代运算的运算框架大数据计算问题：交互式查询：shell,sql 流处理：批处理：基于spark RDD直接编程，机器学习、图计算，理解spark： 1、分布式 Driver端(客户端)提交给集群2、主要基于内存3、迭代式计算（精髓）Driver、WorkerHadoop每次读写 S

SparkStreaming源码解读之数据清理内幕彻底解密

02-01

1.理清楚SparkStreaming中数据清理的流程a)背景b)如何研究SparkStreaming数据清理？c)源码解析SparkStreaming数据清理的工作无论是在实际开发中，还是自己动手实践中都是会面临的，Spark Streaming中BatchDurations...

Java 代码实现了一个简单的文本编辑器-可运行

10-17

Java 代码实现了一个简单的文本编辑器

MATLAB实现基于Attention-LSTM的多特征分类预测（含完整的程序和代码详解）

10-17

内容概要：本文详细介绍了如何使用MATLAB实现基于Attention机制的LSTM模型进行多特征分类预测。主要内容包括程序设计思路、代码实现、模型构建与训练、模型评估及可视化、以及简单的GUI界面设计。模型可以在多个领域应用，如金融数据分析、医疗诊断等。适合人群：对深度学习和分类预测感兴趣的科研人员和开发人员，具备一定的MATLAB和深度学习基础。使用场景及目标：适用于需要处理时间序列数据并进行分类预测的项目。目标是通过Attention-LSTM模型提高分类准确率，同时提供直观的可视化结果和友好的用户界面。其他说明：文中提供了详细的代码实现和注释，读者可以通过实践加深对模型的理解。此外，还讨论了模型优化和未来的研究方向。

基于Flask和SQLAlchemy 的简易仓库管理系统源码(期末课程设计).zip

10-17

基于Flask和SQLAlchemy 的简易仓库管理系统源码(期末课程设计).zip 1.多数小白下载后，在使用过程，可能会遇到些小问题，若自己解决不了，请及时私信描述你的问题，我会第一时间提供帮助，也可以远程指导 2.项目代码完整可靠，谈不上高分、满分(多数为夸大其词），但难度适中，满足一些毕设、课设要求，且属于易上手的优质项目，项目内基本都有说明文档，按照操作即可，遇到困难也可私信交流 3.适用人群：各大计算机相关专业行业的在校学生、高校老师、公司程序员等下载使用 4.特别是那种爱钻研学习的学霸，强烈推荐此项目，可以二次开发提升自己。如果确定自己是学渣，拿来作毕设、课设直接用也无妨，但自己还是尽可能弄懂项目最好！

民航网上订票系统 JAVA毕业设计源码+数据库+论文 Vue.js+SpringBoot+MySQL.zip

10-17

民航网上订票系统 JAVA毕业设计源码+数据库+论文 Vue.js+SpringBoot+MySQL 系统启动教程：https://www.bilibili.com/video/BV11ktveuE2d

JAVA项目报告-闹钟的设计与实现.pdf

10-17

JAVA项目报告-闹钟的设计与实现.pdf

毕业设计论文SpringBoot考试信息报名系统.docx

10-17

10-17