Spark3000门徒第15课RDD创建内幕彻底解密总结

最新推荐文章于 2016-08-11 21:51:43 发布

diaoyi2735

最新推荐文章于 2016-08-11 21:51:43 发布

阅读量67

点赞数

原文链接：http://www.cnblogs.com/haitianS/p/5140789.html

版权

今晚听了王家林老师的第15课RDD创建内幕彻底解密，课堂笔记如下：

Spark driver中第一个RDD：代表了Spark应用程序输入数据的来源.后续通过Transformation来对RDD进行各种算子的转换实现算法

创建RDD的方法：
1，使用程序中的集合创建RDD;2，使用本地文件系统创建RDD；3，使用HDFS创建RDD 4，基于DB创建RDD
5，基于NoSQL,例如HBase 6，基于S3创建RDD 7，基于数据流创建RDD

不指定并行度，有多少core就用多少core,所以需要资源管理，防止一次就耗光了资源。

reduce是action，不产生新的RDD
spark 的map和fiter以及简单的reduceByKey不需要shuffle，比hadoop快很多。

val rdd = sc.parallelize(numbers,10) 指定并行度10

直接访问hbase,mysql需要考虑数据本地性

后续课程可以参照新浪微博王家林_DT大数据梦工厂：http://weibo.com/ilovepains

王家林中国Spark第一人,微信公共号DT_Spark

转发请写明出处。

转载于:https://www.cnblogs.com/haitianS/p/5140789.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

diaoyi2735

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark学习笔记10:创建RDD

balabalalibala的博客

05-17

1694

目录一、什么是RDD （一）RDD概念（二）RDD示例（三）RDD主要特征二、做好准备工作（一）准备文件 1、准备本地系统文件 2、启动HDFS服务 3、准备HDFS系统文件（二）启动SparkShell 1、启动Spark服务 2、启动Spark Shell 三、创建RDD （一）从对象集合创建RDD 1、利用parallelize()方法创建RDD 2、利用makeRDD()方法创建RDD 3、总结说明（二）从外部存储创建RDD 1、读取......

Spark：创建RDD

mu_kui的博客

06-20

668

spark学习笔记

参与评论您还未登录，请先登录后发表或查看评论

Spark3000门徒第七课Spark运行原理及RDD解密总结

Tony991524的博客

01-09

137

今晚听了王家林老师的第七课Spark运行原理及RDD解密，课后作业是：spark基本原理，我的总结如下： 1spark是分布式基于内存特别适合于迭代计算的计算框架 2mapReduce就两个阶段map和reduce，而spark是不断地迭代计算，更加灵活更加强大，容易构造复杂算法。 3spark不能取代hive，hive做数据仓库存储，spark sql只是取代hive的...

Spark3000门徒第14课spark RDD解密总结

Tony991524的博客

01-17

今晚听了王家林老师的第14课spark RDD解密，课堂笔记如下： Spark是基于工作集的应用抽象，RDD：Resillient Distributed Dataset是基于工作集的，spark可以对结果重用。位置感知：spark比hadoop更精致。 RDD是lazy的，是分布式函数式编程的抽象，RDD可以看做一个只读的List或者Array。产生的中间结果怎么办? 不能让 ...

Spark3000门徒第11课彻底解密WordCount运行原理总结

Tony991524的博客

01-13

136

今晚听了王家林老师的第11课：彻底解密WordCount运行原理，课堂笔记以及作业如下：在第一个Stage中， def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { assertNotStoppe...

Spark3000门徒第13课Spark内核架构解密总结

01-17

昨晚听了王家林老师的第13课Spark内核架构解密，课堂笔记如下： executor中线程池并发执行和复用，Spark executor, backed by a threadpool to run tasks. 默认一个work为一个Application只开启一个executor。一个worker里executor是多点好还是少点好，看具体情况。 Worker:管理当前Nod...

3000门徒内部训练绝密视频（泄密版）第7课：实战解析Spark运行原理和Rdd解密

tom_8899_li的博客

08-11

751

实战解析Spark运行原理和Rdd解密分布式基于内存（在一些情况下也会基于硬盘）特别适合于迭代运算的运算框架大数据计算问题：交互式查询：shell,sql 流处理：批处理：基于spark RDD直接编程，机器学习、图计算，理解spark： 1、分布式 Driver端(客户端)提交给集群2、主要基于内存3、迭代式计算（精髓）Driver、WorkerHadoop每次读写 S

SparkStreaming源码解读之数据清理内幕彻底解密

02-01

1.理清楚SparkStreaming中数据清理的流程a)背景b)如何研究SparkStreaming数据清理？c)源码解析SparkStreaming数据清理的工作无论是在实际开发中，还是自己动手实践中都是会面临的，Spark Streaming中BatchDurations...

CPA 税法基础班第4章税目与税率（2）+计税依据（1）.pdf

10-10

CPA 税法基础班第4章税目与税率（2）+计税依据（1）.pdf

Jhipster7.9.3项目

最新发布

10-10

Jhipster

卡车无人机路径优化，卡车带无人机路径优化车辆无人机路径优化代码具有可复制性

10-10

卡车无人机路径优化，卡车带无人机路径优化。车辆无人机路径优化。代码具有可复制性

Python中基于DEAP框架的遗传算法实现与OneMax问题求解（包含详细的完整的程序和数据）

10-10

内容概要：本文章详细介绍了遗传算法及其核心概念，并以OneMax问题为例展示了使用Python的DEAP框架实现遗传算法的具体步骤，包括适应度函数、选择、交叉、变异等关键环节。适用人群：面向具有一定编程基础的开发者和技术研究人员。使用场景及目标：适用于需要解决优化问题的情景，特别是涉及到大规模搜索空间的应用。本篇文章可以帮助读者更好地理解和应用遗传算法。其他说明：除了基本实现之外还提出了进一步改进的方向，比如参数优化和其他优化算法相结合的方法，以及实现算法的并行处理，以便应对更加复杂的现实世界难题。

Python基于opencv的车牌识别系统源码-可作为毕业设计

10-10

Python基于opencv的车牌识别系统源码-可作为毕业设计，本资源中的源码都是经过本地编译过可运行的，评审分达到98分，资源项目的难度比较适中，内容都是经过助教老师审定过的能够满足学习、毕业设计、期末大作业和课程设计使用需求，如果有需要的话可以放心下载使用。 Python基于opencv的车牌识别系统源码-可作为毕业设计，本资源中的源码都是经过本地编译过可运行的，评审分达到98分，资源项目的难度比较适中，内容都是经过助教老师审定过的能够满足学习、毕业设计、期末大作业和课程设计使用需求，如果有需要的话可以放心下载使用。Python基于opencv的车牌识别系统源码-可作为毕业设计，本资源中的源码都是经过本地编译过可运行的，评审分达到98分，资源项目的难度比较适中，内容都是经过助教老师审定过的能够满足学习、毕业设计、期末大作业和课程设计使用需求，如果有需要的话可以放心下载使用。Python基于opencv的车牌识别系统源码-可作为毕业设计，本资源中的源码都是经过本地编译过可运行的，评审分达到98分，资源项目的难度比较适中，内容都是经过助教老师审定过的能够满足学习、毕业设计、期末大作

Django+Vue校园个人闲置物品换购平台答辩PPT.pptx

10-10

计算机毕业设计答辩PPT

Java源代码-ssm+vue开发家教平台系统（含数据库、论文等资料文件）.zip

10-10

本项目是一个基于SSM（Spring+SpringMVC+MyBatis）框架和Vue.js前端技术的家教平台系统。该系统旨在为家教和学生提供一个便捷、高效的在线交流和预约平台，涵盖了从用户注册登录、个人信息管理、课程发布与搜索、预约与取消预约、评价反馈等一系列功能。在后台管理方面，系统提供了管理员对用户信息、课程信息、预约记录等进行管理的功能，确保平台的正常运行和数据的准确性。通过Spring框架的依赖注入和AOP特性，实现了业务逻辑的清晰分离和高效处理；SpringMVC则负责处理前端请求和响应，提供友好的用户界面；MyBatis作为ORM框架，简化了数据库操作，提高了数据访问的效率和安全性。前端部分采用Vue.js框架，结合Vue Router进行页面路由管理，Axios进行HTTP请求，实现了前后端分离的开发模式。Vue.js的组件化开发和响应式数据绑定特性，使得前端页面更加动态和交互性强，提升了用户体验。数据库设计采用了MySQL，存储了用户信息、课程信息、预约记录等核心数据。通过合理的数据库表结构和索引设计，保证了系统的高效运行和数据的一致性。该项目不仅适合计算机相关专业的毕设学生参考和学习，也适合Java学习者进行项目实战练习。通过对该项目的深入理解和二次开发，可以实现更多个性化功能，进一步提升技术水平和实践能力。

基于UNet3+实现的ISIC皮肤病语义分割项目

10-10

基于UNet3+实现的ISIC皮肤病语义分割项目，数据集为开源ISIC皮肤病分割数据集，这里划分训练集和验证集，大约900和380张图片和标签【资源包含完整代码、数据集、训练结果，可以一键运行】使用Unet3+进行训练，100个epoch，最后一个指标如下： [epoch: 100] global correct: 0.9507 Precision: ['0.9664', '0.9111'] Recall: ['0.9650', '0.9144'] F1 score: ['0.9657', '0.9127'] Dice: ['0.9657', '0.9127'] IoU: ['0.9336', '0.8394'] mean precision: 0.9387 mean recall: 0.9397 mean f1 score: 0.9392 mean dice: 0.9392 mean iou: 0.8865 想要更换数据集或者重头训练，参考readme文件，更换目录即可！

Spark创建RDD与DataFrame默认分区策略详解

"Spark创建RDD、DataFrame的默认分区数与`sc.defaultParallelism`和`sc.defaultMinPartitions`紧密相关，并可能受到HDFS文件Block数量的影响。在某些情况下，分区数可能会设置为1，这可能导致性能问题。了解这些...