Zhang's Wikipedia

玩就玩大的

Spark 原理 —— 从 akka 到 spark 集群的启动

1. actor 到 akka Actor 是一种消息并发模型,基于事件模型的并发机制。 Scala 的 Actor 类似于 Java 中的多线程编程,不同在于: Scala 的 Actor 设计的初衷在于尽可能地避免锁和共享状态,从而避免多线程并发时出现资源征用的情况; 原因在于,Java ...

2018-11-11 19:14:09

阅读数:151

评论数:1

scala 基础 ——关键字与特殊符号

1. 开发人员个人喜好 Python:大蟒蛇; Java:爪哇岛, Tomcat:公猫 2. 自嘲 apache:a patchy server, 3. 首字母与缩略 caffe: matlab:matrix laboratory

2017-10-09 22:17:13

阅读数:259

评论数:0

scala 基础 —— 函数(柯里化)

与 Java/c++ 不同的是,scala 并未提供 ++ 和 – 操作符; 不带参数的 scala 方法通常不使用圆括号; scala> &a...

2017-08-01 21:09:27

阅读数:179

评论数:0

Spark —— RDD、DataFrame 与 Dataset

1. 算符优先级 C/C++:位运算符(&|^)的优先级要低于比较运算符(==/!=) 对于 Python 语言来说,位运算符(&|^)的优先级却要高于比较运算符(==/!=)

2016-10-16 11:30:27

阅读数:390

评论数:0

spark-shell 基本用法

spark-shell 是 scala 语言的 REPL(Read-Eval-Print-Loop,通俗地理解就是命令行模式) 环境,同时针对 spark 做了一些拓展。1. 启动 spark-shell 的方法1.1 本机$ spark-shell --master local[N] $ spa...

2016-06-05 16:35:50

阅读数:4024

评论数:0

Exception in thread “main” java.lang.NoClassDefFoundError: com/google/common/base/Preconditions

问题原因,缺少 hadoop 提供的相关 jar 包,也即 guava-版本号.jar。 此 jar 包的位置,在 hadoop 目录下的/share/hadoop/tools/lib.参考: 1. Exception in thread “main” java.lang.NoClassDef...

2016-06-01 08:53:56

阅读数:13716

评论数:0

scala 编程 ——类型限定与泛型编程

OOP:面向对象编程,代表 Java; GP:泛型编程,代表 STL; FP:函数式编程,代表 Python,Scala; map/reduce之前的文章,包括一系列的 Python Tricks,这里不再赘述;filter基于一个返回布尔值的函数对元素进行过滤:def remove_...

2016-05-19 16:18:25

阅读数:592

评论数:0

Spark 编程工具类与工具方法(一)—— 欧式距离

def euclidean(x: Vector[Double], y: Vector[Double]) = { math.sqrt(x.toArray.zip(y.toArray). map(p => p._1 - p._2).map(d => d*d).sum) }

2016-04-23 16:35:44

阅读数:1860

评论数:0

Spark 机器学习 —— KMeans

创建模型所对应的类及模型训练import org.apache.spark.mllib.clustering.KMeans val kmeans = new KMeans() val model = kmeans.run(data) # 要求 data 的类型为 RDD[V...

2016-04-23 16:15:43

阅读数:470

评论数:0

Scala 基础 —— String(StringOps)、tuple、Range

scala> val rawData = sc.textFile("...") rawData: org.apache.spark.rdd.RDD[String]val line = rawData....

2016-04-23 15:41:23

阅读数:1153

评论数:0

Spark 基础 —— RDD(创建 RDD)的两种方式

弹性分布式数据集(Resilient Distributed Dataset),简称 RDD,RDD 是 Spark 所提供的最基本的数据抽象,代表分布在集群中多台机器上的对象集合。Spark 有两种方法可以创建 RDD: (1)用 SparkContext 基于外部数据源创建 RDD,外部数据源...

2016-04-23 15:36:37

阅读数:701

评论数:0

Spark MLlib 编程

数据集的构造val rawData = sc.textFile("...") val data = rawdata.map{ line => val row = line.split(',').map(_.toDouble) val featVec = V...

2016-04-22 11:57:56

阅读数:477

评论数:0

Spark 机器学习 —— 从决策树到随机森林

构造训练数据import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPointval rawdata = sc.textFile("covtype.data&...

2016-04-22 11:52:24

阅读数:1107

评论数:0

Spark 机器学习拾遗

LabeldPointSpark MLlib 将特征向量抽象为 LabeldPoint,它由一个包含多个特征值的 Spark MLlib Vector 和一个称为标号(label)的目标值组成。该目标值为 Double 类型,而 Vector 本质上是对多个 Double 类型值的抽象,这说明 L...

2016-04-22 11:34:57

阅读数:528

评论数:0

Spark 机器学习 —— ALS

ALS(Alternating Least Squares),交替最小二乘法;以下的三点原因: 稀疏的输入数据, 可用简单的线性代数运算求解最优解, 数据本身的可并行化 使得 ALS 在大规模数据上速度非常快,也解释了为什么到目前为止 Spark MLlib 只有 ALS 一种推荐算法。

2016-04-22 09:41:26

阅读数:609

评论数:0

Spark 基础 —— class与object,面向对象、类与伴生对象(companion object)

只要分析过的任务可能会重复出现,就值得花时间改善代码。对缺失值分析而言,我们的第一个任务就是写一个类似于 Spark StatCounter 类的东西,以正常处理缺失值。import org.apache.spark.util.StatCounter class NAStatCounter ext...

2016-04-22 08:56:41

阅读数:1506

评论数:0

mac 下 hadoop、spark 的安装及配置

until vs tountil 不包括右端点; to 包括右端点;

2016-04-21 22:39:46

阅读数:338

评论数:0

Scala 集合 —— Array、Map、Seq、Set

Scala 集合类库很庞大,包括 List,Set,Map,Array等。利用 toList,toSet 和 toArray 方法,各种集合类型可以方便地互相转换。MapScala 的 Map 类没有提供根据内容的键或值排序的方法,当我们可以将 Map 转换为 Scala 的 Seq 类型,而 S...

2016-04-21 22:36:37

阅读数:4475

评论数:0

Spark 基础 —— Map 容器

mapValuesmapValues 顾名思义,仅对 values 进行映射,也即 key 保持不变,所以要求,原始数据必须是键值对。val animals = sc.parallelize(List("Dog", "Cat", "Tiger&qu...

2016-04-21 22:21:17

阅读数:553

评论数:0

scala 基础类库 —— 文件操作

下面哪个 Linux 命令可以一次显示一页内容?A. pause; B. cat; C. more; D. grep。cat:由第一行开始显示文本内容,一次性显示全部; tac:从最后一行开始显示,可以看出 tac 是 cat 的倒写形式; nl:显示的时候顺便显示行号; more:一页一页的显示...

2016-04-12 08:24:06

阅读数:626

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭