【大数据】Spark
文章平均质量分 84
21989939
这个作者很懒,什么都没留下…
展开
-
spark 原理简述与 shuffle 过程介绍
Spark学习: 简述总结Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口.Spark学习 简述总结引言1 Hadoop 和 Spark 的关系Spark 系统架构1 spark 运行原理RDD 初识shuffle 和 stage性能优化1 缓存机制和 cache 的意义2 shuffle 的优化3 资源...转载 2018-03-02 15:37:13 · 1047 阅读 · 0 评论 -
Spark 程序 WordCount实现 Scala、Python
单词统计程序Scala实现---idea 安装scala插件创建maven项目,引入scala sdkpom.xml<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/...原创 2018-03-03 22:25:52 · 377 阅读 · 0 评论 -
RDD操作详解
转换操作mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例: scala> val a = sc.parallelize(1 to 9, 3) scala> val b = a.map(x => x*2) scala> a.collect res10: Array[Int] = Arr...原创 2018-03-05 15:29:25 · 452 阅读 · 0 评论 -
Spark性能优化指南
Spark性能优化指南——基础篇李雪蕤 ·2016-04-29 14:00前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝...转载 2018-04-11 12:52:09 · 1143 阅读 · 0 评论 -
spark 基础操作
dataframespark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。主要对类SQL的支持。DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据块中的表,它与RDD最主要的区别在于:DataFrame有schema元数据,即DataFrame所表示的数据集的每一列都有名称和数据类型。正是因为有了这些schema元数据,Sparl SQL的查询优化器就可以...转载 2018-04-13 11:07:16 · 2056 阅读 · 1 评论