Zhang's Wikipedia

玩就玩大的

scala 偏函数与 map/collect

https://fangjian0423.github.io/2015/06/14/scala-partial/ https://www.jianshu.com/p/fa2ed7ed391e 0. collect 与 map 的区别 由于collect方法接收的是一个偏函数类型,所以它并不...

2019-01-30 19:37:35

阅读数 105

评论数 0

scala 与 spark 并行化

1. .par普通集合转换为并行集合 scala.collection: scala> (1 to 5).foreach(println(_)) 12345 scala> (1 to 5).par.foreach(println(_...

2019-01-30 19:06:13

阅读数 89

评论数 1

Spark utils —— 设置日志级别

1. 通过 SparkContext 指定日志级别 val sc: SparkContext = new SparkContext(sparkConf) sc.setLogLevel("WARN") //sc.setLogLevel("DEBU...

2019-01-22 22:14:45

阅读数 75

评论数 2

Spark 调优 ——cache(persist)与 checkpoint

cache 是对 persist 的进一步调用; 1. 为什么要 checkpoint 为了保证数据安全性,需要对运行出的中间结果进行 checkpoint 最好将结果 checkpoint 到 hdfs,便于集群所有节点进行访问; checkpoint 之前先进行 cache(per...

2019-01-13 22:07:42

阅读数 80

评论数 0

Spark 原理 —— 从 akka 到 spark 集群的启动

1. actor 到 akka Actor 是一种消息并发模型,基于事件模型的并发机制。 Scala 的 Actor 类似于 Java 中的多线程编程,不同在于: Scala 的 Actor 设计的初衷在于尽可能地避免锁和共享状态,从而避免多线程并发时出现资源征用的情况; 原因在于,Java ...

2018-11-11 19:14:09

阅读数 354

评论数 2

scala 基础 ——关键字与特殊符号

1. 开发人员个人喜好 Python:大蟒蛇; Java:爪哇岛, Tomcat:公猫 2. 自嘲 apache:a patchy server, 3. 首字母与缩略 caffe: matlab:matrix laboratory

2017-10-09 22:17:13

阅读数 279

评论数 0

scala 基础 —— 函数(柯里化)

与 Java/c++ 不同的是,scala 并未提供 ++ 和 – 操作符; 不带参数的 scala 方法通常不使用圆括号; scala> &a...

2017-08-01 21:09:27

阅读数 197

评论数 0

Spark —— RDD、DataFrame 与 Dataset

1. 算符优先级 C/C++:位运算符(&|^)的优先级要低于比较运算符(==/!=) 对于 Python 语言来说,位运算符(&|^)的优先级却要高于比较运算符(==/!=)

2016-10-16 11:30:27

阅读数 413

评论数 0

spark-shell 基本用法

spark-shell 是 scala 语言的 REPL(Read-Eval-Print-Loop,通俗地理解就是命令行模式) 环境,同时针对 spark 做了一些拓展。1. 启动 spark-shell 的方法1.1 本机$ spark-shell --master local[N] $ spa...

2016-06-05 16:35:50

阅读数 4160

评论数 0

Exception in thread “main” java.lang.NoClassDefFoundError: com/google/common/base/Preconditions

问题原因,缺少 hadoop 提供的相关 jar 包,也即 guava-版本号.jar。 此 jar 包的位置,在 hadoop 目录下的/share/hadoop/tools/lib.参考: 1. Exception in thread “main” java.lang.NoClassDef...

2016-06-01 08:53:56

阅读数 15203

评论数 0

scala 编程 ——类型限定与泛型编程

OOP:面向对象编程,代表 Java; GP:泛型编程,代表 STL; FP:函数式编程,代表 Python,Scala; map/reduce之前的文章,包括一系列的 Python Tricks,这里不再赘述;filter基于一个返回布尔值的函数对元素进行过滤:def remove_...

2016-05-19 16:18:25

阅读数 603

评论数 0

Spark 编程工具类与工具方法(一)—— 欧式距离

def euclidean(x: Vector[Double], y: Vector[Double]) = { math.sqrt(x.toArray.zip(y.toArray). map(p => p._1 - p._2).map(d => d*d).sum) }

2016-04-23 16:35:44

阅读数 2005

评论数 0

Spark 机器学习 —— KMeans

创建模型所对应的类及模型训练import org.apache.spark.mllib.clustering.KMeans val kmeans = new KMeans() val model = kmeans.run(data) # 要求 data 的类型为 RDD[V...

2016-04-23 16:15:43

阅读数 490

评论数 0

Scala 基础 —— String(StringOps)、tuple、Range

scala> val rawData = sc.textFile("...") rawData: org.apache.spark.rdd.RDD[String]val lin...

2016-04-23 15:41:23

阅读数 1263

评论数 0

Spark 基础 —— RDD(创建 RDD)的两种方式

弹性分布式数据集(Resilient Distributed Dataset),简称 RDD,RDD 是 Spark 所提供的最基本的数据抽象,代表分布在集群中多台机器上的对象集合。Spark 有两种方法可以创建 RDD: (1)用 SparkContext 基于外部数据源创建 RDD,外部数据源...

2016-04-23 15:36:37

阅读数 726

评论数 0

Spark MLlib 编程

数据集的构造val rawData = sc.textFile("...") val data = rawdata.map{ line => val row = line.split(',').map(_.toDouble) val featVec = V...

2016-04-22 11:57:56

阅读数 495

评论数 0

Spark 机器学习 —— 从决策树到随机森林

构造训练数据import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPointval rawdata = sc.textFile("covtype.data&...

2016-04-22 11:52:24

阅读数 1132

评论数 0

Spark 机器学习拾遗

LabeldPointSpark MLlib 将特征向量抽象为 LabeldPoint,它由一个包含多个特征值的 Spark MLlib Vector 和一个称为标号(label)的目标值组成。该目标值为 Double 类型,而 Vector 本质上是对多个 Double 类型值的抽象,这说明 L...

2016-04-22 11:34:57

阅读数 545

评论数 0

Spark 机器学习 —— ALS

ALS(Alternating Least Squares),交替最小二乘法;以下的三点原因: 稀疏的输入数据, 可用简单的线性代数运算求解最优解, 数据本身的可并行化 使得 ALS 在大规模数据上速度非常快,也解释了为什么到目前为止 Spark MLlib 只有 ALS 一种推荐算法。

2016-04-22 09:41:26

阅读数 647

评论数 0

Spark 基础 —— class与object,面向对象、类与伴生对象(companion object)

只要分析过的任务可能会重复出现,就值得花时间改善代码。对缺失值分析而言,我们的第一个任务就是写一个类似于 Spark StatCounter 类的东西,以正常处理缺失值。import org.apache.spark.util.StatCounter class NAStatCounter ext...

2016-04-22 08:56:41

阅读数 1537

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭