学习笔记
明夜再说
这个作者很懒,什么都没留下…
展开
-
Spark编程核心:RDD—1,RDD入门及概念
目录Spark编程核心:RDD—1,简单介绍。RDD简介:RDD的五大特性:RDD中默认partition的个数:RDD的宽窄依赖概念:RDD的操作类型:惰性求值:Spark的任务执行流程:Driver的作用:内存管理:检查点:大数据中的"Hello World":WordCountjava版scala版: Spark编程核心:RDD—1,简单介绍。 RDD简介: Spark对数据的核心抽象:弹性...原创 2019-03-19 20:28:01 · 702 阅读 · 0 评论 -
Spark入门及安装部署
目录Spark简介拥有四种运行模式Spark比MapReduce快的原因DAG在spark中任务调度详解Spark生态系统:Spark安装部署:配置伪分布模式:1、上传spark安装包到虚拟机-Linux2、解压、配置软连接3、配置环境变量4、修改配置文件5、启动spark6、测试webui配置Spark-完全分布式 HA1、上传spark压缩包到Linux操作系统2、解压、并且配置软连接3、配置...原创 2019-03-18 21:28:21 · 886 阅读 · 0 评论 -
Spark编程核心—2,RDD详解
目录Spark编程核心—2,RDD详解写一个spark应用程序的流程:常见的RDD算子Transformation算子Action算子RDD中一些值得注意的点1、缓存2、数据分区代码实战数据过滤-Scala 版统计每个页面的 UV二次排序-scala 版TopN 问题:找出每个班级中排名前三的分数-Java 版 Spark编程核心—2,RDD详解 写一个spark应用程序的流程: 1、 加载数据集...原创 2019-03-26 18:58:57 · 517 阅读 · 0 评论