spark
githubshareing
给自己的人生留下点脚印
展开
-
spark on yarn
说明:默认机器上已经安装了hadoop环境,要是没有的话参照我在csdn写的博客https://blog.csdn.net/qq_18377515/article/details/82560167#zookeeper__519安装scala准备安装包链接:https://pan.baidu.com/s/1c2n46Z1wNqMA_X930MkzAA提取码:tymr安装scala解压安...原创 2018-10-14 11:06:53 · 122 阅读 · 0 评论 -
spark 倾斜连接
说明并行计算中,我们总希望分配的每一个任务(task)都能以相似的粒度来切分,且完成时间相差不大。但是由于集群中的硬件和应用的类型不同、切分的数据大小不一,总会导致部分任务极大地拖慢了整个任务的完成时间。硬件不同暂且不论,下面举例说明不同应用类型的情况,如Page Rank或者Data Mining中的一些计算,它的每条记录消耗的成本不太一样,这里只讨论关于关系型运算的Join连接的数据倾斜状况...原创 2018-10-14 11:51:48 · 265 阅读 · 1 评论 -
spark 算子(Transformation and Action)
文章目录Transformation算子Actions算子说明:spark 算子分为两类:一类是Transformation算子,一类是Action算子,其中Transformation算子不会触发作业提交,Action算子会触发作业提交。Transformation算子map(输入分区与输出分区一对一)例子:val spark: SparkSession = SparkSessi...原创 2018-10-10 15:08:34 · 809 阅读 · 0 评论 -
Spark(2.4.3) 概述
文章目录概述安全下载运行例子在集群上启动学习参考路线编程指南API 文档部署指南其他文件扩展资源概述Apache Spark是一种快速通用的集群计算系统。它提供Java,Scala,Python和R 的高级API,以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具,包括Spark SQL用于SQL和结构化数据的处理,MLlib机器学习,GraphX用于图形处理和Spark Stre...翻译 2019-05-19 20:24:25 · 1416 阅读 · 0 评论 -
Spark Streaming 编程指南(2.4.3)
文章目录概述概述翻译 2019-06-02 14:57:38 · 1299 阅读 · 0 评论