用scala Map写个词频统计

1.使用可变map实现单词统计// 这里要注意文件编码问题如果有中文要用UTF-8保存,最好文件统一使用utf-8保存 val in = Source.fromFile("g:/a/1.txt") // 获取所有行 val initer = in.g...

2017-08-30 17:28:55

阅读数 891

评论数 0

Spark源码系列(四)图解作业生命周期

Source:Spark源码系列(四)图解作业生命周期 这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,let you know! 我们先回顾一下这个图,Driver Program是我们写的那个程序,它的核心是SparkContext,...

2017-08-30 12:13:10

阅读数 218

评论数 0

Scala Map详解

Scala中Map继承自Iterator特质,是一组(K,V)对偶。其子类SortedMap按照Key排序访问其中的实体。1.可变map和不可变mapscala同时支持可变和不可变map。不可变map从不改变,因此你可以线程安全的共享其引用,在多线程的应用程序中也没问题。举例来说,既有scala....

2017-08-30 11:37:29

阅读数 3319

评论数 0

Spark源码系列(三)作业运行过程

Spark源码系列(三)作业运行过程 作业执行 上一章讲了RDD的转换,但是没讲作业的运行,它和Driver Program的关系是啥,和RDD的关系是啥? 官方给的例子里面,一执行collect方法就能出结果,那我们就从collect开始看吧,进入RDD,找到collect...

2017-08-29 22:35:03

阅读数 157

评论数 0

Spark源码系列(二)RDD详解

Spark源码系列(二)RDD详解 1、什么是RDD? 上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。 RDD的全名是Resilient Distributed Dataset,意思...

2017-08-29 22:31:43

阅读数 137

评论数 0

Spark源码系列(一)spark-submit提交作业过程

Spark源码系列(一)spark-submit提交作业过程 前言 折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。     这个是Spark的App运行图,它通过一个Driver来和集群通信,集群负责作业的分配。今天我要讲...

2017-08-29 22:29:01

阅读数 385

评论数 0

scala高级类型

1.单例类型 给定任何引用v,你可以得到类型v.type,他有两个可能值:V和Null。用法看一个返回this的例子。class Document{ def setAuthor(author:String) = this def setTitle(title:String) = ...

2017-08-29 19:58:41

阅读数 118

评论数 0

scala中的泛型

1.泛型类 Scala中的泛型类使用[T]来定义,如:class Pair[T, S](val first: T, val second: S) object Pair { def apply[T, S](f: T, s: S) = new Pair(f, s) } 在实例化的时候,会根...

2017-08-29 16:18:34

阅读数 205

评论数 0

eclipse代码格式化快捷键

shift+alt+s –> shift+ctrl+f

2017-08-29 14:23:21

阅读数 232

评论数 0

修改eclipse scala IDE的默认scala库

在开发spark项目时会遇到IDE自带的scala的库与spark默认库版本不一致的情况。 下面来修改IDE自带的scala库,我用的是eclipse的IDE 1.在scala库上右击 选择Build Path –> Config Build Path –>选择edit ...

2017-08-29 11:44:15

阅读数 986

评论数 0

scala中的match详解

Scala中提供了比java,c更加强大的switch语句——match,而且不用担心因为忘记写break语句而发生case穿透 1.更好的switch 与if,类似match也是表达式,如下一个用于匹配字符的函数def charMatch(c: Char) = c match { ...

2017-08-29 09:46:21

阅读数 7581

评论数 0

scala中的reduceLeft,reduceRight,foldLeft,foldRight方法

scala中集合类iterator特质的化简 reduce和折叠fold方法

2017-08-28 16:15:55

阅读数 2479

评论数 1

zookeeper原理

zookeeper原理 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制...

2017-08-28 11:54:21

阅读数 139

评论数 0

scala 的apply,update,unapply方法

Scala允许函数调用语法 f(arg1, arg2,…) ⇒ f.apply(arg1, arg2,…) f(arg1, arg2,…) = value ⇒ f.update(arg1, arg2,…) = value 例如:val scores = new scala.collect...

2017-08-28 10:08:23

阅读数 194

评论数 0

scala中的对偶转换类型函数

scala中的对偶(Int,Int)和两个Int的类型的参数非常相似// 使用拉链创造对偶 val p = (1 to 10) zip (11 to 20) // 这两个函数是不同的,这个是用两个Int,Int做的参数 def adjustToPair(f:(Int,Int) ...

2017-08-27 22:28:05

阅读数 286

评论数 0

scala中一个高阶函数的N种调用方法

// (参数类型) => 结果类型 //定义接受一个函数参数的函数 def valueAtOneQuarter(f: (Double) => Double) = f(0.25) // 函数传参的完整写法 valueAtOneQuarter { (x...

2017-08-27 18:47:10

阅读数 900

评论数 0

hadoop2.7.3 hdfs Java API操作

/** * @author root *测试hadoop hdfs 的客户端操作 *项目创建只需要导入hadoop的hadoop-2.7.3-bin\share\hadoop下面所有jar包就可以了 *也可以使用maven依赖 *hadoop-core */ public class...

2017-08-27 18:34:54

阅读数 1606

评论数 0

Spark入门RDD操作

RDD(Resilient Distributed Datasets),弹性分布式数据集,RDD的简单操作

2017-08-27 18:28:53

阅读数 200

评论数 0

scala的主辅构造器

scala的主构造器(primary constructor)和辅助构造器(auxiliary constructor) 1.辅助构造器的名称为this 2.每个辅助构造器都必须直接或间接以主构造开始—-辅助构造器class Person { private var...

2017-08-26 22:36:06

阅读数 344

评论数 0

Scala IDE设置缩进格式

scala IDE缩进修改

2017-08-26 21:27:51

阅读数 1104

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭