2016年01月_Xeon-Shao

12月 11月 10月 09月 06月 05月 04月 03月 02月 01月

转载 Apache Spark Jobs 性能调优（二）

Apache Spark Jobs 性能调优（二）调试资源分配调试并发压缩你的数据结构数据格式在这篇文章中，首先完成在 Part I 中提到的一些东西。作者将尽量覆盖到影响 Spark 程序性能的方方面面，你们将会了解到资源调优，或者如何配置 Spark 以压榨出集群每一分资源。然后我们将讲述调试并发度，这是job性能中最难也是最重要的参数。最后，你将了解到

2016-01-29 15:55:22 719

转载 Apache Spark Jobs 性能调优（一）

Apache Spark Jobs 性能调优（一）Spark 是如何执行程序的选择正确的 Operator什么时候不发生 Shuffle什么情况下 Shuffle 越多越好二次排序结论当你开始编写 Apache Spark 代码或者浏览公开的 API 的时候，你会遇到各种各样术语，比如transformation，action，RDD 等等。了解到这些是编

2016-01-29 15:23:26 671

原创 A-Deeper-Understanding-of-Spark-Internals（Spark内核深入理解）

这篇文章是对Spark Submit 2014会议上Aaron Davidson做的报告的PPT内容的整理，报告主要讲了Spark中shuffle过程的调优。做了下整理，加入一些自己的理解。 Goal: Understanding how Spark runs, focus on performance• Major core components:– Execution Mo

2016-01-28 21:52:52 1027

翻译判断RDD有多少个分区

为了调优和故障排查，经常有必要知道RDD中有多少个Partition。有如下几个方式可以找到这些信息：使用Spark web UI查看任务执行和分区情况当一个stage执行的时候，你可以在Spark UI中查看一个指定stage的分区个数。例如，下面的代码创建了一个有100个元素，4个分区的RDD。然后在将元素收集回driver程序前做了一个虚拟的map任务：scala> val so

2016-01-28 15:58:17 7652

转载 Controlling the number of Partitions in Spark for shuffle transformations (Ex. reduceByKey)

The previous article explored how input partitions are defined by Spark. This short article will describes how partitions are defined when Spark needs to Shuffle dataTransformations which requir

2016-01-28 15:05:11 575

原创避免使用GroupByKey

有两种方法实现wordcount，一种是使用reduceByKey，另一种是使用groupByKey。val words = Array("one", "two", "two", "three", "three", "three")val wordPairsRDD = sc.parallelize(words).map(word => (word, 1))val wordCountsWi

2016-01-28 10:41:00 2225

转载详细探究Spark的shuffle实现

Background在MapReduce框架中，shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现，自然也实现了shuffle的逻辑，本文就深入研究Spark的shuffle是如何实现的，有什么优缺点，与Hadoop Ma

2016-01-28 10:17:42 535

转载 Spark的性能调优

下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。基本概念和原则首先，要搞清楚Spark的几个基本概念和原则，否则系统的性能调优无从谈起：每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor，task们会被分配到executor上面去执行。Stage指的是一组并行运行

2016-01-28 09:31:40 545

转载 Spark算子：RDD键值转换操作(2)–combineByKey、foldByKey

combineByKeydef combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) =>

2016-01-28 09:28:43 805

转载 spark内核揭秘-14-Spark性能优化的10大问题及其解决方案

问题1：reduce task数目不合适解决方案：需要根据实际情况调整默认配置，调整方式是修改参数spark.default.parallelism。通常的，reduce数目设置为core数目的2-3倍。数量太大，造成很多小任务，增加启动任务的开销；数目太小，任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism问题2：s

2016-01-26 16:36:11 495

原创在Windows上编译Spark源码

原文转自http://my.oschina.net/u/1452001/blog/344067?fromerr=1iS9kYnS在本机（Windows 8）上安装spark玩一玩，Spark的Quick Start上没有指明具体步骤，自己Build好了之后把步骤记录一下。首先，到Spark的官网上下载Spark的压缩包，然后解压缩到本地文件夹。我下的是Spark 1.1.0

2016-01-26 15:57:18 1435

转载 Spark 部署及示例代码讲解

Spark 部署考虑到读者可能使用“ssh secure shell”这样的工具登陆 Linux，所以解释一下如何设置工具支持中文。如何设置 ssh secure shell 支持中文只需要设置下/etc/sysconfig/i18n 文件内容如清单 1 所示。清单 1. 文件内容LANG="zh_CN.GB18030"SUPPORTED="zh_CN.G

2016-01-26 15:55:04 800

转载 Spark算子：统计RDD分区中的元素及数量

Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithIndex方法来统计每个分区中的元素及数量。关于mapPartitionsWithIndex的介绍可

2016-01-26 14:33:20 2729

转载 Spark优化一则 - 减少Shuffle

看了Spark Summit 2014的A Deeper Understanding of Spark Internals，视频（要科学上网）详细讲解了Spark的工作原理，Slides的45页给原始算法和优化算法。破砂锅用自己3节点的Spark集群试验了这个优化算法，并进一步找到更快的算法。测试数据是Sogou实验室的日志文件前10000000条数据。目标是对日志第2列数据，按照第一个字

2016-01-26 14:29:29 789

转载 Spark 配置指南

阅读目录应用属性运行时环境Runtime EnvironmentShuffle BehaviorSpark UICompression and SerializationExecution BehaviorNetworkingSchedulingSecuritySpark Streaming集群管理器Cluster Managers目录 [−]Spark

2016-01-26 14:25:44 856

转载 Spark性能调优

通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整，本文主要分享的也是这两方面内容。性能监控工具【Spark监控工具】Spark提供了一些基本的Web监控页面，对于日常监控十分有用。1. Application Web UIhttp://master:4040（默认端口是4040，可以通过spark.ui.port修改）可获得这些信息：（

2016-01-26 14:21:35 522

转载 Spark源码分析：多种部署方式之间的区别与联系

作者：过往记忆从官方的文档我们可以知道， Spark 的部署方式有很多种：local、Standalone、Mesos、YARN…..不同部署方式的后台处理进程是不一样的，但是如果我们从代码的角度来看，其实流程都差不多。从代码中，我们可以得知其实Spark的部署方式其实比官方文档中介绍的还要多，这里我来列举一下：1、local：这种方式是在本地启

2016-01-26 11:25:16 614

原创 Spark编译报错问题日志记录

能生成spark-assembly-1.5.1-hadoop2.6.0.jar之后报错[warn] Strategy 'discard' was applied to 3 files[warn] Strategy 'first' was applied to 247 files[info] Assembly up to date: D:\dev\spark-1.5.1\assembly

2016-01-26 10:20:22 1119

转载 Spark shuffle：hash和sort性能对比

我们都知道Hadoop中的shuffle（不知道原理？可以参见《MapReduce：详细介绍Shuffle的执行过程》），Hadoop中的shuffle是连接map和reduce之间的桥梁，它是基于排序的。同样，在Spark中也是存在shuffle，Spark 1.1之前，Spark的shuffle只存在一种方式实现方式，也就是基于hash的。而在最新的Spark 1.1.0版本中引进了新的s

2016-01-26 08:26:37 1188

原创在stackoverflow上使用markdown

本文整理自http://www.tuicool.com/articles/UJziqqr，但结合具体实际，发现有一些出入，遂做了修改，适用于stackoverflow网站的编辑器,所有权力归原作者所有。Markdown 是个非常简洁易学的网络标记语言。很多主流程序员社区都支持（例如：github, stackoverflow, cnblogs ...）。热烈庆祝：博客园也支持

2016-01-25 11:24:56 1715

转载彻底理解MapReduce shuffle过程原理

MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程？我们都知道MapReduce计算模型一般包括两个重要的阶段：Map是映射，负责数据

2016-01-22 17:03:28 2569

转载 Hadoop1.x中HDFS工作原理

HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（中文，英文）。HDFS有很多特点： ① 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。（商用机）

2016-01-22 15:18:03 478

转载推荐！手把手教你使用Git

本文转自http://www.alibuybuy.com/posts/85952.html，所有权利归原作者所有，此篇文章从git的安装到初步配置再到使用教程，内容叙述的非常具体详尽！！教程精品！原文出处：涂根华的博客欢迎分享原创到伯乐头条一：Git是什么？ Git是目前世界上最先进的分布式版本控制系统。二：SVN与Git的最主要的区别？

2016-01-22 13:39:02 314

转载 Windows + IDEA + SBT 打造Spark源码阅读环境

Spark源码阅读环境的准备Spark源码是有Scala语言写成的，目前，IDEA对Scala的支持要比eclipse要好，大多数人会选在在IDEA上完成Spark平台应用的开发。因此，Spark源码阅读的IDE理所当然的选择了IDEA。本文介绍的是Windows下的各项配置方法（默认已经装了java，JDK）。下面列举搭建此环境需要的各个组件：IDEA，有两个版本

2016-01-21 16:49:18 702

转载 Windows下git安装及使用技巧

1. 下载git软件https://git-scm.com/2. 安装git软装3. 生成公私钥注：生成私钥的过程中，给私钥设定了密码保护。注：将公钥（chenyan.pub）交给git 服务器的管理，把公钥及

2016-01-21 16:16:24 1009

转载 SpringMVC拦截器（资源和权限管理）

本文转自http://blog.csdn.net/tonytfjing/article/details/39207551，纯是怕丢了找不着这文章，所以先转过来，所有权力归原作者所有。1.DispatcherServlet SpringMVC具有统一的入口DispatcherServlet，所有的请求都通过DispatcherServlet。 Dispatch

2016-01-16 15:01:04 507

PHP pgsql驱动文件

PHP pgsql linux平台驱动文件（so文件），适用于PHP7.2版本。用于PHP连接PostgreSQL数据库。包含pgsql.so，pdo_pgsql.so两个文件。

2022-05-13

feralpacket.ini.txt

SecureCRT关键词高亮配置文件配置文件放置路径C:\Users\[你的系统账户名]\AppData\Roaming\VanDyke\Config 将文件后缀名修改为.ini 在session options中设置高亮配置方案为feralpacket

2020-05-13

idea增强插件，启用此插件后，写代码不会再出现bug /* _ooOoo_ o8888888o 88" . "88 (| -_- |) O\ = /O ____/`---'\____ .' \\| |// `. / \\||| : |||// \ / _||||| -:- |||||- \ | | \\\ - /// | | | \_| ''\---/'' | | \ .-\__ `-` ___/-. / ___`. .' /--.--\ `. . __ ."" '< `.___\__/___.' >'"". | | : `- \`

2019-11-18

TA关注的人

sdujava2011