Scala
Xeon-Shao
这个作者很懒,什么都没留下…
展开
-
A Scala Tutorial for Java programmers之(一)Scala入门:Scala例子,以及如何与Java交互
本文为初学Scala的Java开发者提供了一个Scala例子(Hello world),并对Scala与Java交互的情况作了一些大致的介绍。AD:本文源自Michel Schinz和Philipp Haller所写的A Scala Tutorial for Java programmers,由Bearice成中文。下面先对Scala进行一个简单的介绍,提供转载 2015-08-01 21:41:16 · 964 阅读 · 0 评论 -
判断RDD有多少个分区
为了调优和故障排查,经常有必要知道RDD中有多少个Partition。有如下几个方式可以找到这些信息:使用Spark web UI查看任务执行和分区情况当一个stage执行的时候,你可以在Spark UI中查看一个指定stage的分区个数。例如,下面的代码创建了一个有100个元素,4个分区的RDD。然后在将元素收集回driver程序前做了一个虚拟的map任务:scala> val so翻译 2016-01-28 15:58:17 · 7652 阅读 · 0 评论 -
A-Deeper-Understanding-of-Spark-Internals(Spark内核深入理解)
这篇文章是对Spark Submit 2014会议上Aaron Davidson做的报告的PPT内容的整理,报告主要讲了Spark中shuffle过程的调优。做了下整理,加入一些自己的理解。 Goal: Understanding how Spark runs, focus on performance• Major core components:– Execution Mo原创 2016-01-28 21:52:52 · 1027 阅读 · 0 评论 -
Apache Spark Jobs 性能调优(一)
Apache Spark Jobs 性能调优(一)Spark 是如何执行程序的选择正确的 Operator什么时候不发生 Shuffle什么情况下 Shuffle 越多越好二次排序结论当你开始编写 Apache Spark 代码或者浏览公开的 API 的时候,你会遇到各种各样术语,比如transformation,action,RDD 等等。 了解到这些是编转载 2016-01-29 15:23:26 · 671 阅读 · 0 评论 -
Apache Spark Jobs 性能调优(二)
Apache Spark Jobs 性能调优(二)调试资源分配调试并发压缩你的数据结构数据格式在这篇文章中,首先完成在 Part I 中提到的一些东西。作者将尽量覆盖到影响 Spark 程序性能的方方面面,你们将会了解到资源调优,或者如何配置 Spark 以压榨出集群每一分资源。然后我们将讲述调试并发度,这是job性能中最难也是最重要的参数。最后,你将了解到转载 2016-01-29 15:55:22 · 718 阅读 · 0 评论 -
spark java api通过run as java application运行的方法
先上代码:[python] view plain copy /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed w转载 2016-03-16 14:57:04 · 793 阅读 · 0 评论 -
Spark 性能相关参数配置详解-shuffle篇
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.csdn.net/colorant/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org/docs/latest/configurat转载 2016-03-25 20:52:15 · 546 阅读 · 1 评论 -
Scala安装及环境变量配置
一.Windows环境下待后续补充。二.MacOS环境下1. Scala官网下载MacOS使用的scala tgz格式压缩包,下载不了的话科学上网试一下,科学上网也下载不了可以试一下用迅雷。2.下载完成后解压压缩包,将解压文件夹放到/usr/local/share目录下。3.终端使用sudo vi ~/.bash_profile配置Scala用户环境变量(也可在/etc/...原创 2019-09-29 13:46:05 · 539 阅读 · 0 评论 -
如何使用IntelliJ IDEA搭建spark开发环境(上)
本文部分转自http://www.beanmoon.com/2014/10/11/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8intellij%E6%90%AD%E5%BB%BAspark%E5%BC%80%E5%8F%91%E7%8E%AF%E5%A2%83/,其中有自己在实践中遇到的一些问题的记录,仅用来学习记录,所有权利归原作者所有。现在这个网址已经访问不了了...原创 2015-07-08 11:22:12 · 4237 阅读 · 0 评论 -
避免使用GroupByKey
有两种方法实现wordcount,一种是使用reduceByKey,另一种是使用groupByKey。val words = Array("one", "two", "two", "three", "three", "three")val wordPairsRDD = sc.parallelize(words).map(word => (word, 1))val wordCountsWi原创 2016-01-28 10:41:00 · 2225 阅读 · 0 评论 -
Spark的性能调优
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。基本概念和原则首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stage指的是一组并行运行转载 2016-01-28 09:31:40 · 545 阅读 · 0 评论 -
SparkSQL: no typetag available for xxxx问题的解决办法
case class 类要定义在Object类的上面,即外面如果cass class类放在了Object类里面,就会报标题的异常转载 2015-09-29 09:13:45 · 3469 阅读 · 0 评论 -
学习Scala:使用try-catch表达式处理异常
本文节选自Martin Odersky,Lex Spoon和Bill Venners所著,Regular翻译的《Programming in Scala》的第七章。Scala是一种针对 JVM 将函数和面向对象技术组合在一起的编程语言。AD:Scala的异常和许多其它语言的一样。代之用普通方式那样返回一个值,方法可以通过抛出一个异常中止。方法的调用者要么可以转载 2015-09-29 09:12:11 · 9885 阅读 · 0 评论 -
Scala开发教程(16): 没有“break”和“continue”的日子
本文转自http://www.imobilebbs.com/wordpress/archives/4851,所有权利归原作者所有。你也许注意到到目前为止,我们介绍Scala的内置的控制结构时,没有提到使用break,和continue。Scala特地没有在内置控制结构中包含break和continue是因为这两个控制结构和函数字面量有点格格不入,函数字面量我们将在后面介绍,函数字面量和其它转载 2015-11-13 09:35:34 · 3534 阅读 · 0 评论 -
Windows平台下sbt的安装设置
本文转自http://my.oschina.net/u/915967/blog/146746,且根据个人实践对原文进行了更新并对错误进行了修改,修改内容以红色字体标出,所有权利归原作者所有。首先到http://www.scala-sbt.org/release/tutorial/Setup.html下载windows的sbt包,zip,tar.gz都行。将下载的包解压到你指定的目录转载 2015-11-16 21:55:54 · 6116 阅读 · 0 评论 -
Spark源码走读1——RDD
RDD全称Resilient Distributed DataSets,弹性的分布式数据集。是Spark的核心内容。RDD是只读的,不可变的数据集,也拥有很好的容错机制。他有5个主要特性 -A list of partitions 分片列表,数据能为切分才好做并行计算 -A function for computing each split 一个函数计算一个分片转载 2015-12-15 11:20:00 · 736 阅读 · 0 评论 -
Windows + IDEA + SBT 打造Spark源码阅读环境
Spark源码阅读环境的准备Spark源码是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发。因此,Spark源码阅读的IDE理所当然的选择了IDEA。本文介绍的是Windows下的各项配置方法(默认已经装了java,JDK)。下面列举搭建此环境需要的各个组件:IDEA,有两个版本转载 2016-01-21 16:49:18 · 702 阅读 · 0 评论 -
Spark源码分析:多种部署方式之间的区别与联系
作者:过往记忆从官方的文档我们可以知道, Spark 的部署方式有很多种:local、Standalone、Mesos、YARN…..不同部署方式的后台处理进程是不一样的,但是如果我们从代码的角度来看,其实流程都差不多。从代码中,我们可以得知其实Spark的部署方式其实比官方文档中介绍的还要多,这里我来列举一下:1、local:这种方式是在本地启转载 2016-01-26 11:25:16 · 614 阅读 · 0 评论 -
Spark算子:RDD键值转换操作(2)–combineByKey、foldByKey
combineByKeydef combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) =>转载 2016-01-28 09:28:43 · 805 阅读 · 0 评论 -
如何使用intellij搭建spark开发环境(下)
本文转自http://www.beanmoon.com/2014/10/11/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8intellij%E6%90%AD%E5%BB%BAspark%E5%BC%80%E5%8F%91%E7%8E%AF%E5%A2%83%EF%BC%88%E4%B8%8B%EF%BC%89/,所有权力归原作者所有。(吐槽一句,CSDN这个排版也是...原创 2015-07-08 11:26:01 · 1423 阅读 · 0 评论