SPARK
spark 学习与总结
githubshareing
给自己的人生留下点脚印
展开
-
Structured Streaming(阿里 云魄 直播视频记录)
文章目录Structured Streaming 简介流式处理理的难点Structured Streaming特点工作原理micro-batch 处理模式continuous处理理模式exactly once - sourceexactly once - sink 容错exactly once -- state store 容错Spark 2.4新特性Stateful 操作分类groupby操作s...原创 2019-06-08 15:35:42 · 655 阅读 · 0 评论 -
Spark Streaming 编程指南(2.4.3)
文章目录概述 概述翻译 2019-06-02 14:57:38 · 1299 阅读 · 0 评论 -
Spark SQL,DataFrames和Datasets Guide (spark 2.4.3)
文章目录概述SQLDatasets and DataFramesDatasetsDataFrames开始SparkSession创建DataFrameDataFrame操作备注 概述 Spark SQL是Spark的一个组件,用于结构化数据的计算。与基本Spark RDD API不同,Spark SQL提供的接口为Spark提供了关于数据和正在执行的计算的结构的更多信息。在内部,Spark使用这些...翻译 2019-05-29 19:39:14 · 436 阅读 · 0 评论 -
RDD 编程指南(spark2.4.3)
文章目录概述连接SparkSpark 初始化使用shell弹性分布式数据集(RDD)并行化集合(Parallelized Collections)外部数据集(External Datasets)RDD操作简单解释理解闭包本地与群集模式打印RDD的元素TransformationsactionsShuffle 操作背景性能影响RDD持久性选择哪种存储级别?删除数据共享变量广播变量累加器 概述 在较高...原创 2019-05-26 18:21:05 · 916 阅读 · 0 评论 -
Spark(2.4.3) 快速开始
使用Spark Shell进行交互式分析 基本 Spark的shell提供了一种学习API的简单方法,以及一种以交互方式分析数据的强大工具。它可以在Scala(在Java VM上运行,因此是使用现有Java库的好方法)或Python中使用。通过在Spark目录中运行以下命令来启动它: ./bin/spark-shell Spark的主要抽象是一个名为Dataset的分布式项目集合。可以从Hado...原创 2019-05-26 00:28:24 · 1180 阅读 · 0 评论 -
Spark(2.4.3) 概述
文章目录概述安全下载运行例子在集群上启动学习参考路线编程指南API 文档部署指南其他文件扩展资源 概述 Apache Spark是一种快速通用的集群计算系统。它提供Java,Scala,Python和R 的高级API,以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具,包括Spark SQL用于SQL和结构化数据的处理,MLlib机器学习,GraphX用于图形处理和Spark Stre...翻译 2019-05-19 20:24:25 · 1416 阅读 · 0 评论 -
spark 倾斜连接
说明 并行计算中,我们总希望分配的每一个任务(task)都能以相似的粒度来切分,且完成时间相差不大。但是由于集群中的硬件和应用的类型不同、切分的数据大小不一,总会导致部分任务极大地拖慢了整个任务的完成时间。硬件不同暂且不论,下面举例说明不同应用类型的情况,如Page Rank或者Data Mining中的一些计算,它的每条记录消耗的成本不太一样,这里只讨论关于关系型运算的Join连接的数据倾斜状况...原创 2018-10-14 11:51:48 · 265 阅读 · 1 评论 -
spark on yarn
说明:默认机器上已经安装了hadoop环境,要是没有的话参照我在csdn写的博客https://blog.csdn.net/qq_18377515/article/details/82560167#zookeeper__519 安装scala 准备安装包 链接:https://pan.baidu.com/s/1c2n46Z1wNqMA_X930MkzAA 提取码:tymr 安装scala 解压安...原创 2018-10-14 11:06:53 · 122 阅读 · 0 评论 -
spark 算子(Transformation and Action)
文章目录Transformation算子Actions算子 说明:spark 算子分为两类:一类是Transformation算子,一类是Action算子,其中Transformation算子不会触发作业提交,Action算子会触发作业提交。 Transformation算子 map(输入分区与输出分区一对一) 例子: val spark: SparkSession = SparkSessi...原创 2018-10-10 15:08:34 · 809 阅读 · 0 评论