bitcarmanlee的博客

米厂的小码农,专注数据与算法,qq群:397173819

spark 稀疏矩阵存储详细揭秘

spark mllib模块中,矩阵的表示位于org.apache.spark.mllib.linalg包的Matrices中。而Matrix的表示又分两种方式:dense与sparse。在实际场景应用场景中,因为大数据本身的稀疏性,sparse的方式比dense的方式使用更为频繁。而网络上大部分的...

2018-05-24 14:59:29

阅读数:143

评论数:0

Spark项目 error while loading <root>, error in opening zip file

IDE中的一个spark项目,从git上重新拉取代码以后,报了以下一堆错误: error: error while loading , error in opening zip file [ERROR] error: error while loading , error in openin...

2018-01-26 11:53:10

阅读数:264

评论数:0

java.lang.UnsupportedClassVersionError : Unsupported major.minor version 52.0

在spark-shell中,遇到了如下的错误: Caused by: java.lang.UnsupportedClassVersionError: xxx/xxx/xxx/xxx : Unsupported major.minor version 52.0 at java.lang.C...

2018-01-11 16:30:21

阅读数:337

评论数:0

SparkSQL简单教程

当面对一堆格式化的数据需要做一些统计分析的时候,awk是个非常不错的选择。但是当数据量上来以后,通过单机awk的方式处理就显得有些力不从心,这个时候我们可以通过SparkSQL来模拟sql的方式来处理这些海量数据,现在就给大家举个实例,看看怎么通过简单的几行代码用SparkSQL的方式来分析海量数...

2017-12-28 09:32:19

阅读数:581

评论数:0

spark 通过打散热点key解决数据倾斜问题

1.热点key的数据倾斜在大数据相关的统计与处理中,热点key造成的数据倾斜非常常见也非常讨厌,经常会造成job运行时间变长或者造成job的OOM最后导致任务失败。例如在wordcount任务中,如果有一个word是热点词,出现的次数很多,那么最后这个job的运行时间就是由这个热点词所在的task...

2017-12-22 16:06:11

阅读数:354

评论数:0

Spark编程Tips

1.尽量用 aggregateByKey 和 ReduceByKey和CombineByKey, 替代 groupByKey。这个开发过程中深有体会,groupByKey极易引发各种OOM。。。2.repartition 适用于 RDD[V], partitionBy 适用于 RDD[K, V]....

2017-12-13 18:12:42

阅读数:153

评论数:0

Spark 堆外内存

1.堆外内存有哪些前面提到spark中的堆内存溢出,除了堆内存,还有堆外内存。该部分内存主要用于程序的共享库、Perm Space、 线程Stack和一些Memory mapping等, 或者类C方式allocate object.堆外内存在Spark中可以从逻辑上分成两种: 一种是DirectM...

2017-12-13 16:55:44

阅读数:1197

评论数:0

Spark Heap OOM(堆内存溢出)

spark任务在调试过程中,OOM是非常讨厌的一种情况。本文针对Heap OOM的情况先做一定分析,告诉大家如何调参。1.Heap OOM的现象如果在Spark UI或者在spark.log中看到如下日志:java.lang.OutOfMemoryError: GC overhead limit ...

2017-12-13 11:11:33

阅读数:1131

评论数:0

spark中的广播变量与累加器

1.累加器(accumulator)累加器是仅仅被相关操作累加的变量,因此可以在并行中被有效地支持。它可以被用来实现计数器和总和。 累加器通过对一个初始化了的变量v调用SparkContext.accumulator(v)来创建。在集群上运行的任务可以通过add或者”+=”方法在累加器上进行累加...

2017-11-25 22:09:01

阅读数:446

评论数:0

spark 两个rdd求交集,差集,并集

1.前言spark中两个rdd,经常需要做交集,差集,并集等操作。好比任何一门编程语言中两个集合,交并差也是常见的需求。现在我们看看在spark中怎么实现两个rdd的这种操作。 为了方便看到结果,在spark shell中测试如下代码。先生成两个rddscala> val rdd1 = s...

2017-11-24 22:58:50

阅读数:2464

评论数:0

Spark性能优化指南——高级篇

数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,...

2017-11-13 22:15:50

阅读数:231

评论数:0

Spark性能优化指南——基础篇

1. 前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多...

2017-11-13 21:34:15

阅读数:171

评论数:0

spark aggregate函数详解

aggregate算是spark中比较常用的一个函数,理解起来会比较费劲一些,现在通过几个详细的例子带大家来着重理解一下aggregate的用法。1.先看看aggregate的函数签名在spark的源码中,可以看到aggregate函数的签名如下:def aggregate[U: ClassTag...

2017-09-25 18:53:39

阅读数:642

评论数:0

spark生成DataFrame

1.为什么要有DataFrameSpark中的RDD叫做分布式弹性数据集。RDD是一个粗粒度的分布式计算,用函数声明式的api就能完成分布式的计算,比如wordcount,在mapreduce要写比较冗长的代码,而在Spark中可以用一行代码搞定。 既然RDD这么简单方便,为什么还要搞出一个Da...

2017-09-07 18:28:17

阅读数:483

评论数:0

Spark2.1特征处理:提取/转换/选择

1.Feature Extractors(特征提取)1.1 TF-IDF词频(Term Frequency)- 逆向文档频率(Inverse Document Frequency) 是一种特征矢量化方法,广泛应用于文本挖掘,用以评估某一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。定义...

2017-09-06 17:43:17

阅读数:1304

评论数:0

spark读取gz文件与parquet文件

1.spark读取hdfs gz的压缩文件spark1.5以后的版本支持直接读取gz格式的文件,与读取其他纯文本文件没区别。 启动spark shell的交互界面,按读取普通文本文件的方式读取gz文件:sc.textFile("/your/path/*.gz").map{.....

2017-08-30 09:52:55

阅读数:2547

评论数:1

combineByKey实例详解

我们在做数据统计与分析的时候,经常会遇到K-V结构的数据,所以处理这种K-V结构的数据也是非常常见的需求。在Spark中,除了原生的RDD天然有这种K,V结构,API中也包含有javaPairRdd,PairwiseRdd等对应的接口。而对于KV结构的数据处理就有很多种情况了,例如像数据库的gro...

2017-08-25 14:22:34

阅读数:262

评论数:0

spark根据key输出到多个目录

项目中需要将spark的输出按id输出到不同的目录中,即实现在spark中的多路输出。我们可以调用saveAsHadoopFile函数并自定义一个OutputFormat类,就可以达到上述目的。import org.apache.commons.lang3.StringUtils import o...

2017-06-08 20:08:56

阅读数:2380

评论数:0

spark压缩和序列化相关

1.spark.serializer默认为org.apache.spark.serializer.JavaSerializer, 可选 org.apache.spark.serializer.KryoSerializer, 实际上只要是org.apache.spark.serializer的子类就...

2016-11-08 11:17:09

阅读数:386

评论数:0

spark rdd详解二(transformation与action操作)

sparkRdd transformation action

2016-11-06 16:15:53

阅读数:1671

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭