spark
文章平均质量分 56
鞋带散了的木木
不懒的人,运气都不会太差
展开
-
Spark Streaming学习(1)
Spark Streaming是核心Spark API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。 数据可以从诸如Kafka,Flume,Kinesis或TCP套接字的许多来源中获取,并且可以使用由高级功能(如map,reduce,join和window)表达的复杂算法进行处理,处理后的数据可以推送到文件系统,数据库和实时仪表板。 也可以在数据流上应用Spark的机器学习和图形处理算法原创 2017-05-08 16:51:51 · 291 阅读 · 0 评论 -
Spark入门_python
一.安装spark安装可参照厦门大学数据实验室出的安装教程–Spark快速入门指南 - Spark安装与基础使用二.Spark Python参照官方文档–Spark Programming Guide任何Spark程序都SparkContext开始,SparkContext的初始化需要一个SparkConf对象。所以所有的Spark Python的第一句都应该是from pyspark impor原创 2016-12-26 20:54:24 · 640 阅读 · 0 评论 -
sbt安装及测试
一、概念sbt是Scala,Java等的构建工具,要求Java 1.6及以上。Spark由Scala语言实现,在Spark学习使用过程中经常要用到sbt工具。 sbt官网有比较详尽的使用教程,且有英语、中文、日语等版本,建议大家直接查看官网教程,本文主要包括sbt的安装及使用其编译完成WordCount程序。二、安装sbt的安装分为两部分: a launcher JAR and a shell s原创 2017-05-09 14:39:14 · 2478 阅读 · 0 评论 -
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。为何要处理数据倾斜(Data Skew)什么是数据转载 2017-08-22 19:13:42 · 344 阅读 · 0 评论 -
Spark 中的宽依赖和窄依赖
文章转自houmouSpark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency).宽依赖与窄依赖窄依赖是指父RDD的每个分区只被子转载 2017-09-21 21:33:28 · 595 阅读 · 0 评论 -
RDD论文翻译 --弹性分布式数据集:一种基于内存的集群计算的容错性抽象方法
弹性分布式数据集(RDD,Resilient Distributed Dataset)论文翻译转载 2017-09-04 15:01:22 · 1443 阅读 · 0 评论