2016年08月_唐予之_

12月 10月 09月 08月 07月 06月 05月 04月

原创性能调优之在实际项目中调节并行度

Spark 并行度指的是什么？Spark作业，Application Jobs action(collect)触发一个job；每个job 拆成多个stage，怎么划分：发生shuffle的时候，会拆分出一个stage；（怎么会发生shuffle？）stage0 stage1WordCountval lines = sc.textFile(“hdfs://”)val words = lin

2016-08-31 23:58:52 1404

分配更多资源：性能调优的王道，就是增加和分配更多的资源，性能和速度上提升，是显而易见的，基本上，在一定范围内，增加资源与性能的提升，是成正比的，写完一个复杂的spark作业之后，进行性能调优的时候首先第一步，我决定就是要来调节最优的资源配置，在这个基础之上，如果说你的spark作业，能够分配的资源达到你的能力范围的顶端之后，无法分配更多资源了，公司资源有限，那么才是考虑去做后面的这些性能调优的点。1

2016-08-31 23:58:11 973

原创 Spark大数据常见错误分享总结（来自苏宁）

Spark trouble shooting 经验分享错误总结

2016-08-30 11:28:29 2418

原创 Spark 之DataFrame与RDD 转换

DataFrame可以从结构化文件、hive表、外部数据库以及现有的RDD加载构建得到。具体的结构化文件、hive表、外部数据库的相关加载可以参考其他章节。这里主要针对从现有的RDD来构建DataFrame进行实践与解析。Spark SQL 支持两种方式将存在的RDD转化为DataFrame。第一种方法是使用反射来推断包含特定对象类型的RDD的模式。在写Spark程序的同时，已经知道了模式，这种

2016-08-30 11:08:37 26170

原创 Spark二次排序学习总结

二次排序Spark二次排序，即组装一个新的key并在这个key里实现排序接口所定义的方法。例如一组数据：（点击次数，下单次数，支付次数） A:(30,35,40) B:(35,35,40) C:(30,38,40) D:(35,35,45)需要分别对点击次数，下单次数，支付次数做比较。比较完35【点击次数】相等，则要对【下单次数】二次比较，若【下单次数】还是相等，则要对【支付次数再次比较】直

2016-08-17 22:03:35 766

原创 Spark自定义累加器的实现

1.为什么要使用自定义累加器前文讲解过spark累加器的简单使用：http://blog.csdn.net/lxhandlbb/article/details/51931713但是若业务较为复杂,需要使用多个广播变量时，就会使得程序变得非常复杂，不便于扩展维护，因此可以考虑自定义累加器。2.怎么使用自定义累加器Java版本：package com.luoxuehuan.sparkproject.sp

2016-08-08 00:22:21 8531 1

如何做好一个ppt演讲

2013-06-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

coderlaw's study

原创性能调优之在实际项目中调节并行度

原创 Spark性能调优之——在实际项目中分配更多的资源

原创 Spark大数据常见错误分享总结（来自苏宁）

原创 Spark 之DataFrame与RDD 转换

原创 Spark二次排序学习总结

原创 Spark自定义累加器的实现

如何做好一个ppt演讲

空空如也

原创 性能调优之在实际项目中调节并行度

原创 Spark性能调优之——在实际项目中分配更多的资源

原创 Spark大数据常见错误分享总结（来自苏宁）

原创 Spark 之DataFrame与RDD 转换

原创 Spark二次排序学习总结

原创 Spark自定义累加器的实现

如何做好一个ppt演讲

空空如也

原创性能调优之在实际项目中调节并行度