spark
ziqiiii
念念不忘必有回响;欲速则不达;千里之堤溃于蚁穴
展开
-
单机启动spark-shell失败:localhost被改变导致的问题
启动spark-shell报错:ERROR SparkContext: Error initializing SparkContext.java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries (on a random free port)! Co...原创 2020-04-10 15:46:58 · 523 阅读 · 0 评论 -
Spark系列八:在集群上运行Spark
Spark系列七:Spark编程进阶原创 2020-04-03 20:05:33 · 242 阅读 · 0 评论 -
Spark系列七:Spark编程进阶
Spark系列六:数据读取和保存Spark的两大共享变量:累加器 和 广播变量累加器(accumulator):用来对信息进行聚合,常见用途是在调试时对作业执行过程中的事件进行计数 广播变量(broadcast variable):用来高效分发较大的对象...原创 2020-03-26 00:00:04 · 183 阅读 · 0 评论 -
Spark系列六:数据读取和保存
Spark系列五:键值对RDD三类常见的数据源:1. 文本文件读取文本文件:2. Json原创 2020-03-23 00:11:04 · 172 阅读 · 0 评论 -
Spark系列五:键值对RDD
Spark系列四: 基本RDD----行动操作键值对RDD通常用来进行聚合计算。一般通过一些初试ETL(抽取、转化、装载)操作来将数据转化为键值对形式。原创 2020-03-22 00:02:16 · 478 阅读 · 1 评论 -
Spark系列四: 基本RDD----行动操作
Spark系列三: 基本RDD----转化操作原创 2020-03-21 20:08:09 · 650 阅读 · 0 评论 -
Spark系列三: 基本RDD----转化操作
Spark系列二: RDD编程讲讲哪些转化操作和行动操作受任意数据类型对RDD支持:原创 2020-03-21 16:00:12 · 281 阅读 · 0 评论 -
Spark系列二: RDD编程
Spark对数据对核心抽象----弹性分布式数据集(Resilient Distributed Dataset,简称RDD)RDD其实就是分布式对元素集合。一个不可变对分布式对象集合,每个RDD都被分为多个分区,这些分区运行在集群的不同节点上。在Sprak中,对数据对所有操作不外乎:创建RDD,转化已有RDD,调用RDD操作进行求值。在一切对背后,Spark会自动将RDD中的数据分...原创 2020-03-21 12:21:25 · 201 阅读 · 0 评论 -
Spark系列一: 介绍及入门
一、Spark 是什么spark是一个用来实现快速而通用的集群计算平台。spark各组件:1. spark core实现了spark的基本功能,包括任务调度,内存管理,错误恢复,与存储系统交互等模块。spark core中还包含了对弹性分布式数据集(resilient distributed dataset,RDD)对API定义。RDD表示分布在多个计算节点上可以并行操作对...原创 2020-03-21 11:15:27 · 340 阅读 · 0 评论