自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

coderlaw's study

学习成长,总结反思。

  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 性能调优之在实际项目中调节并行度

Spark 并行度指的是什么?Spark作业,Application Jobs action(collect)触发一个job; 每个job 拆成多个stage, 怎么划分: 发生shuffle的时候,会拆分出一个stage;(怎么会发生shuffle?)stage0 stage1WordCountval lines = sc.textFile(“hdfs://”)val words = lin

2016-08-31 23:58:52 1404

原创 Spark性能调优之——在实际项目中分配更多的资源

分配更多资源:性能调优的王道,就是增加和分配更多的资源,性能和速度上提升,是显而易见的,基本上,在一定范围内,增加资源与性能的提升,是成正比的,写完一个复杂的spark作业之后,进行性能调优的时候首先第一步,我决定就是要来调节最优的资源配置,在这个基础之上,如果说你的spark作业,能够分配的资源达到你的能力范围的顶端之后,无法分配更多资源了,公司资源有限,那么才是考虑去做后面的这些性能调优的点。1

2016-08-31 23:58:11 973

原创 Spark大数据常见错误分享总结(来自苏宁)

Spark trouble shooting 经验分享 错误总结

2016-08-30 11:28:29 2418

原创 Spark 之DataFrame与RDD 转换

DataFrame可以从结构化文件、hive表、外部数据库以及现有的RDD加载构建得到。具体的结构化文件、hive表、外部数据库的相关加载可以参考其他章节。这里主要针对从现有的RDD来构建DataFrame进行实践与解析。Spark SQL 支持两种方式将存在的RDD转化为DataFrame。 第一种方法是使用反射来推断包含特定对象类型的RDD的模式。在写Spark程序的同时,已经知道了模式,这种

2016-08-30 11:08:37 26170

原创 Spark二次排序学习总结

二次排序Spark二次排序,即组装一个新的key并在这个key里实现排序接口所定义的方法。例如一组数据:(点击次数,下单次数,支付次数) A:(30,35,40) B:(35,35,40) C:(30,38,40) D:(35,35,45)需要分别对点击次数,下单次数,支付次数做比较。比较完35【点击次数】相等,则要对【下单次数】二次比较,若【下单次数】还是相等,则要对【支付次数再次比较】直

2016-08-17 22:03:35 766

原创 Spark自定义累加器的实现

1.为什么要使用自定义累加器前文讲解过spark累加器的简单使用:http://blog.csdn.net/lxhandlbb/article/details/51931713但是若业务较为复杂,需要使用多个广播变量时,就会使得程序变得非常复杂,不便于扩展维护,因此可以考虑自定义累加器。2.怎么使用自定义累加器Java版本:package com.luoxuehuan.sparkproject.sp

2016-08-08 00:22:21 8531 1

如何做好一个ppt演讲

如何做好一个ppt演讲

2013-06-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除