![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 96
chenjieit619
这个作者很懒,什么都没留下…
展开
-
Spark-Sort排序详解
原文地址:http://blog.csdn.net/jiangpeng59/article/details/52938465目录(?)[+]1.sortByKey无可非议sortByKey是Spark的最常用的排序,简单的案例暂且跳过,下面给一个非简单的案例,进入排序之旅对下面简单元祖,要求先按元素1升序,若元素1相同,则再按元素3升序(1,转载 2016-11-04 15:32:31 · 2405 阅读 · 0 评论 -
Spark - ERROR Executor: java.lang.OutOfMemoryError: unable to create new native thread
如果你的Spark程序在执行过程中报出如下类似的错误:ERROR Executor: Exception in task xxx in stage xxxjava.lang.OutOfMemoryError: unable to create new native thread那么可能性非常大的原因是你当前通过spark-submit或spark-sql启动的程序中开启了过多的进程转载 2017-11-06 16:17:06 · 2140 阅读 · 0 评论 -
Spark join问题
本篇文章是关于我在学习Spark过程中遇到的一些问题及总结,分为Spark优化、RDD join问题、遇到的问题、总结、参考资料几个部分。 一:Spark优化 1、设置序列化器为KryoSerializer Spark默认使用的是Java序列化机制,但是Spark也支持使用Kryo序列化库,Kryo序列化机制比Java序列化机制性能高10倍左右 2、压缩机转载 2017-05-10 16:42:56 · 3481 阅读 · 0 评论 -
spark mapPartition方法与map方法的区别 以及 join的用法
http://wanshi.iteye.com/blog/2183906 rdd的mapPartitions是map的一个变种,它们都可进行分区的并行处理。 两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。 假设一个rdd有10个元素,分成3个分区。如果使用map方法,m转载 2017-05-09 16:09:44 · 765 阅读 · 0 评论 -
Spark Shuffle FetchFailedException解决方案
在大规模数据处理中,这是个比较常见的错误。报错提示SparkSQL shuffle操作带来的报错org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 01212org.apache.spark.shuffle.FetchFailedEx转载 2017-04-11 09:41:04 · 1011 阅读 · 0 评论 -
使用基于Apache Spark的随机森林方法预测贷款风险
原文:Predicting Loan Credit Risk using Apache Spark Machine Learning Random Forests 作者:Carol McDonald,MapR解决方案架构师 翻译:KK4SBB 责编:周建丁(zhoujd@csdn.NET)在本文中,我将向大家介绍如何使用Apache Spark的Spark.转载 2017-03-21 18:39:13 · 560 阅读 · 0 评论 -
Spark性能优化:数据倾斜调优
Spark性能优化:数据倾斜调优 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据倾斜调优调优概述 有的时候,我们可转载 2017-02-15 16:18:25 · 383 阅读 · 0 评论 -
Spark性能优化总结
近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下面对一些优化的思路方法进行梳理。优化的目标保证大数据量下任务运行成功降低资源消耗提高计算性能三个目标优先级依次递减,首要解决的是程序能够跑通大数据量,资源性能尽量进行转载 2016-12-02 10:07:41 · 497 阅读 · 0 评论 -
spark submit参数调优
摘要 1.num-executors 2.executor-memory 3.executor-cores 4.driver-memory 5.spark.default.parallelism 6.spark.storage.memoryFraction 7.spark.shuffle.memoryFraction 8.total-ex原创 2016-12-01 14:27:23 · 15713 阅读 · 5 评论 -
spark基本概念
我们知道Spark总是以集群的方式运行的,Standalone的部署方式是集群方式中最为精简的一种(另外的是Mesos和Yarn)。Standalone模式中,资源调度是自己实现的,是MS架构的集群模式,故存在单点故障问题。下面提出几个问题并解决:1、Standalone部署方式下包含哪些节点?由不同级别的三个节点组成,分别是Master主控节点、Worker工作节点、客户端节点;转载 2016-12-01 14:42:40 · 254 阅读 · 0 评论 -
Spark RDD 核心总结
摘要: 1.RDD的五大属性 1.1 partitions(分区) 1.2 partitioner(分区方法) 1.3 dependencies(依赖关系) 1.4 compute(获取分区迭代列表) 1.5 preferedLocations(距离近的节点列表) 2.RDD实现类举例 2.1 MapPartit转载 2016-12-01 14:35:16 · 480 阅读 · 0 评论 -
Spark Shuffle原理、Shuffle操作问题解决和参数调优
摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuffleManager 2 Shuffle操作问题解决 2.1 数据倾斜原理 2.2 数据倾斜问题发现与解决转载 2016-12-01 14:33:48 · 5559 阅读 · 0 评论 -
Spark的持久化简记
摘要: 1.spark 提供的持久化方法 2.Spark的持久化级别 3.如何选择一种最合适的持久化策略内容:1.spark 提供的持久化方法如果要对一个RDD进行持久化,只要对这个RDD调用cache()和persist()即可。在第二次计算RDD是就不用再重新计算了,从而提高spark作业效率对于persist()方法而言,我们可以根据不同的业务场转载 2016-12-01 14:31:43 · 380 阅读 · 0 评论 -
Spark算子选择策略
摘要 1.使用reduceByKey/aggregateByKey替代groupByKey 2.使用mapPartitions替代普通map 3.使用foreachPartitions替代foreach 4.使用filter之后进行coalesce操作 5.使用repartitionAndSortWithinPartitions替代repartiti转载 2016-12-01 14:28:43 · 627 阅读 · 0 评论 -
Spark函数详解系列之RDD基本转换
摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作转载 2016-10-19 18:10:52 · 899 阅读 · 0 评论 -
Spark MLlib实现的中文文本分类–Naive Bayes
文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。本文介绍使用Spark MLlib提供的朴素贝叶斯(Naive Bayes)算法,完成对中文文本的分类过程。主要包括中文分词、文本表示(TF-IDF)、模型训练、分类预测等。中文分词对于中文文本分类而言,需要先对文章进行转载 2016-10-25 15:02:11 · 746 阅读 · 0 评论 -
Spark取出(Key,Value)型数据中Value值为前n条数据
最近在使用Spark进行一些日志分析,需要对日志中的一些(key,value)型数据进行排序,并取出value最多的10条数据。经过查找资料,发现Spark中的top()函数可以取出排名前n的元素,以及sortBy()函数可以对(key,value)数据根据value进行排序,原以为一切都很好解决,但是实际情况并没有得到想要的结果数据,研究了部分源码,才最终达到了想要的数据,特在此备注和分享。转载 2018-01-12 09:52:25 · 794 阅读 · 0 评论