- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 性能调优之在实际项目中调节并行度
Spark 并行度指的是什么?Spark作业,Application Jobs action(collect)触发一个job; 每个job 拆成多个stage, 怎么划分: 发生shuffle的时候,会拆分出一个stage;(怎么会发生shuffle?)stage0 stage1WordCountval lines = sc.textFile(“hdfs://”)val words = lin
2016-08-31 23:58:52 1404
原创 Spark性能调优之——在实际项目中分配更多的资源
分配更多资源:性能调优的王道,就是增加和分配更多的资源,性能和速度上提升,是显而易见的,基本上,在一定范围内,增加资源与性能的提升,是成正比的,写完一个复杂的spark作业之后,进行性能调优的时候首先第一步,我决定就是要来调节最优的资源配置,在这个基础之上,如果说你的spark作业,能够分配的资源达到你的能力范围的顶端之后,无法分配更多资源了,公司资源有限,那么才是考虑去做后面的这些性能调优的点。1
2016-08-31 23:58:11 973
原创 Spark 之DataFrame与RDD 转换
DataFrame可以从结构化文件、hive表、外部数据库以及现有的RDD加载构建得到。具体的结构化文件、hive表、外部数据库的相关加载可以参考其他章节。这里主要针对从现有的RDD来构建DataFrame进行实践与解析。Spark SQL 支持两种方式将存在的RDD转化为DataFrame。 第一种方法是使用反射来推断包含特定对象类型的RDD的模式。在写Spark程序的同时,已经知道了模式,这种
2016-08-30 11:08:37 26170
原创 Spark二次排序学习总结
二次排序Spark二次排序,即组装一个新的key并在这个key里实现排序接口所定义的方法。例如一组数据:(点击次数,下单次数,支付次数) A:(30,35,40) B:(35,35,40) C:(30,38,40) D:(35,35,45)需要分别对点击次数,下单次数,支付次数做比较。比较完35【点击次数】相等,则要对【下单次数】二次比较,若【下单次数】还是相等,则要对【支付次数再次比较】直
2016-08-17 22:03:35 766
原创 Spark自定义累加器的实现
1.为什么要使用自定义累加器前文讲解过spark累加器的简单使用:http://blog.csdn.net/lxhandlbb/article/details/51931713但是若业务较为复杂,需要使用多个广播变量时,就会使得程序变得非常复杂,不便于扩展维护,因此可以考虑自定义累加器。2.怎么使用自定义累加器Java版本:package com.luoxuehuan.sparkproject.sp
2016-08-08 00:22:21 8531 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人