Zhang's Wikipedia

玩就玩大的

StreamDM:基于Spark Streaming、支持在线学习的流式分析算法引擎

streamDM:Data Mining for Spark Streaming,华为诺亚方舟实验室开源了业界第一个基于 Spark Streaming 的算法引擎StreamDM。大数据分析按照模型是否在线学习可以分为: 离线学习(Offline Learning); 在线学习(Online L...

2016-11-08 10:43:54

阅读数:462

评论数:0

Spark 基础 —— Seq、Set

1. 常用成员函数1.1 sortBy

2016-06-05 17:19:06

阅读数:3920

评论数:0

Spark 基础 —— RDD 常用成员函数

1. countByValue:执行统计计数根据值统计出现的次数;scala> val animals = sc.parallelize(List("Dog", "Cat", "Tiger", "Cat"), 2...

2016-06-05 17:05:24

阅读数:732

评论数:0

Spark 基础 —— Array(数组)

1. 常用成员及成员函数1.1 last获取最后一个元素

2016-06-05 16:43:43

阅读数:4862

评论数:0

spark-shell 基本用法

spark-shell 是 scala 语言的 REPL(Read-Eval-Print-Loop,通俗地理解就是命令行模式) 环境,同时针对 spark 做了一些拓展。1. 启动 spark-shell 的方法1.1 本机$ spark-shell --master local[N] $ spa...

2016-06-05 16:35:50

阅读数:3591

评论数:0

Exception in thread “main” java.lang.NoClassDefFoundError: com/google/common/base/Preconditions

问题原因,缺少 hadoop 提供的相关 jar 包,也即 guava-版本号.jar。 此 jar 包的位置,在 hadoop 目录下的/share/hadoop/tools/lib.参考: 1. Exception in thread “main” java.lang.NoClassDef...

2016-06-01 08:53:56

阅读数:10994

评论数:0

Spark 基础 —— Range

until vs to until:不包括右端点 to:包括右端点 scala> 0 until 5 res0: scala.collection.immutable.Range.Inclusive = Range(0, 1, 2, 3, 4) scala> 0 to 5 res1: ...

2016-04-23 16:43:03

阅读数:612

评论数:0

Spark 编程工具类与工具方法(一)—— 欧式距离

def euclidean(x: Vector[Double], y: Vector[Double]) = { math.sqrt(x.toArray.zip(y.toArray). map(p => p._1 - p._2).map(d => d*d).sum) }

2016-04-23 16:35:44

阅读数:1668

评论数:0

Spark 机器学习 —— KMeans

创建模型所对应的类及模型训练import org.apache.spark.mllib.clustering.KMeans val kmeans = new KMeans() val model = kmeans.run(data) # 要求 data 的类型为 RDD[V...

2016-04-23 16:15:43

阅读数:424

评论数:0

Scala 基础 —— String(StringOps)

scala> val rawData = sc.textFile("...") rawData: org.apache.spark.rdd.RDD[String]val line = rawData.first line: Stringsplit()和 Java/Pyth...

2016-04-23 15:41:23

阅读数:845

评论数:0

Spark 基础 —— RDD(二)

弹性分布式数据集(Resilient Distributed Dataset),简称 RDD,RDD 是 Spark 所提供的最基本的数据抽象,代表分布在集群中多台机器上的对象集合。Spark 有两种方法可以创建 RDD: (1)用 SparkContext 基于外部数据源创建 RDD,外部数据源...

2016-04-23 15:36:37

阅读数:675

评论数:0

Spark MLlib 编程

数据集的构造val rawData = sc.textFile("...") val data = rawdata.map{ line => val row = line.split(',').map(_.toDouble) val featVec = V...

2016-04-22 11:57:56

阅读数:460

评论数:0

Spark 机器学习 —— 从决策树到随机森林

构造训练数据import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPointval rawdata = sc.textFile("covtype.data&...

2016-04-22 11:52:24

阅读数:1066

评论数:0

Spark 机器学习拾遗

LabeldPointSpark MLlib 将特征向量抽象为 LabeldPoint,它由一个包含多个特征值的 Spark MLlib Vector 和一个称为标号(label)的目标值组成。该目标值为 Double 类型,而 Vector 本质上是对多个 Double 类型值的抽象,这说明 L...

2016-04-22 11:34:57

阅读数:511

评论数:0

Spark 机器学习 —— ALS

ALS(Alternating Least Squares),交替最小二乘法;以下的三点原因: 稀疏的输入数据, 可用简单的线性代数运算求解最优解, 数据本身的可并行化 使得 ALS 在大规模数据上速度非常快,也解释了为什么到目前为止 Spark MLlib 只有 ALS 一种推荐算法。

2016-04-22 09:41:26

阅读数:579

评论数:0

Spark 基础 —— 类与伴生对象(companion object)

只要分析过的任务可能会重复出现,就值得花时间改善代码。对缺失值分析而言,我们的第一个任务就是写一个类似于 Spark StatCounter 类的东西,以正常处理缺失值。import org.apache.spark.util.StatCounter class NAStatCounter ext...

2016-04-22 08:56:41

阅读数:1426

评论数:0

Spark 基础拾遗

until vs tountil 不包括右端点; to 包括右端点;

2016-04-21 22:39:46

阅读数:305

评论数:0

Spark 基础 —— Scala 集合

Scala 集合类库很庞大,包括 List,Set,Map,Array等。利用 toList,toSet 和 toArray 方法,各种集合类型可以方便地互相转换。MapScala 的 Map 类没有提供根据内容的键或值排序的方法,当我们可以将 Map 转换为 Scala 的 Seq 类型,而 S...

2016-04-21 22:36:37

阅读数:1298

评论数:0

Spark 基础 —— Map 容器

mapValuesmapValues 顾名思义,仅对 values 进行映射,也即 key 保持不变,所以要求,原始数据必须是键值对。val animals = sc.parallelize(List("Dog", "Cat", "Tiger&qu...

2016-04-21 22:21:17

阅读数:476

评论数:0

Spark 基础 —— 元组(tuple)

Scala 中的元组同 Python,由()标识:val t = (1, 2, 3)从元组中获取某个字段的值,可以用下标函数,注意是从 _1 开始,或者用 productElement 方法(它是从 0 开始计数的)t._1 # 1 t.productElement(0) #...

2016-04-21 22:01:45

阅读数:6034

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭