2017年02月_Janvn

12月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Spark函数传递:闭包和单例模式

闭包例子在Spark的集群模式中，每一个Spark应用由负责运行用户的main函数的driver program和并行运行在集群中的工作进程组成。主要的抽象数据结构是RDD，可以在集群中并行的被操作，其主要提供了两个操作：transformations以及actions。这些都是Spark的基本内容，稍微提及一下，由以下一个小例子引入正题：[java] view p

2017-02-24 17:16:54 739

转载 Ubuntu16.04出现黑屏问题，没有账户的图标，进入不了图形

今天打开VM中的Ubuntu16.04，却发现进入不了图形桌面，虽然还可以登录账户，但是却没有账户的图标，如图所示：虽然输入密码后能进入系统，但是确实黑屏，什么都没有。界面看上去就不对劲，然后就开始搜索，在群里问大神。找了很多方法，都试了试，很多都不行。然后看到一篇文章说是重新装一下桌面。1，在上面图片中进入系统后按ctrl+alt+f1(f1至f6都可以进入

2017-02-15 00:49:49 4716

转载 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据

2017-02-08 11:07:54 540

转载 Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速

2017-02-07 10:58:24 322

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人