Zhang's Wikipedia

玩就玩大的

排序:
默认
按更新时间
按访问量

scala 基础 ——关键字与特殊符号

1. 开发人员个人喜好 Python:大蟒蛇; Java:爪哇岛, Tomcat:公猫 2. 自嘲 apache:a patchy server, 3. 首字母与缩略 caffe: matlab:matrix laboratory

2017-10-09 22:17:13

阅读数:228

评论数:0

scala 基础

与 Java/c++ 不同的是,scala 并未提供 ++ 和 – 操作符; 不带参数的 scala 方法通常不使用圆括号; scala> "hello".distinct String ...

2017-08-01 21:09:27

阅读数:161

评论数:0

Spark —— RDD 与 DataFrame

1. 算符优先级 C/C++:位运算符(&|^)的优先级要低于比较运算符(==/!=) 对于 Python 语言来说,位运算符(&|^)的优先级却要高于比较运算符(==/!=)

2016-10-16 11:30:27

阅读数:371

评论数:0

spark-shell 基本用法

spark-shell 是 scala 语言的 REPL(Read-Eval-Print-Loop,通俗地理解就是命令行模式) 环境,同时针对 spark 做了一些拓展。1. 启动 spark-shell 的方法1.1 本机$ spark-shell --master local[N] $ spa...

2016-06-05 16:35:50

阅读数:3816

评论数:0

Exception in thread “main” java.lang.NoClassDefFoundError: com/google/common/base/Preconditions

问题原因,缺少 hadoop 提供的相关 jar 包,也即 guava-版本号.jar。 此 jar 包的位置,在 hadoop 目录下的/share/hadoop/tools/lib.参考: 1. Exception in thread “main” java.lang.NoClassDef...

2016-06-01 08:53:56

阅读数:12318

评论数:0

Spark 编程工具类与工具方法(一)—— 欧式距离

def euclidean(x: Vector[Double], y: Vector[Double]) = { math.sqrt(x.toArray.zip(y.toArray). map(p => p._1 - p._2).map(d => d*d).sum) }

2016-04-23 16:35:44

阅读数:1746

评论数:0

Spark 机器学习 —— KMeans

创建模型所对应的类及模型训练import org.apache.spark.mllib.clustering.KMeans val kmeans = new KMeans() val model = kmeans.run(data) # 要求 data 的类型为 RDD[V...

2016-04-23 16:15:43

阅读数:436

评论数:0

Scala 基础 —— String(StringOps)、tuple、Range

scala> val rawData = sc.textFile("...") rawData: org.apache.spark.rdd.RDD[String]val line = rawData....

2016-04-23 15:41:23

阅读数:956

评论数:0

Spark 基础 —— RDD(二)

弹性分布式数据集(Resilient Distributed Dataset),简称 RDD,RDD 是 Spark 所提供的最基本的数据抽象,代表分布在集群中多台机器上的对象集合。Spark 有两种方法可以创建 RDD: (1)用 SparkContext 基于外部数据源创建 RDD,外部数据源...

2016-04-23 15:36:37

阅读数:690

评论数:0

Spark MLlib 编程

数据集的构造val rawData = sc.textFile("...") val data = rawdata.map{ line => val row = line.split(',').map(_.toDouble) val featVec = V...

2016-04-22 11:57:56

阅读数:469

评论数:0

Spark 机器学习 —— 从决策树到随机森林

构造训练数据import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPointval rawdata = sc.textFile("covtype.data&...

2016-04-22 11:52:24

阅读数:1086

评论数:0

Spark 机器学习拾遗

LabeldPointSpark MLlib 将特征向量抽象为 LabeldPoint,它由一个包含多个特征值的 Spark MLlib Vector 和一个称为标号(label)的目标值组成。该目标值为 Double 类型,而 Vector 本质上是对多个 Double 类型值的抽象,这说明 L...

2016-04-22 11:34:57

阅读数:519

评论数:0

Spark 机器学习 —— ALS

ALS(Alternating Least Squares),交替最小二乘法;以下的三点原因: 稀疏的输入数据, 可用简单的线性代数运算求解最优解, 数据本身的可并行化 使得 ALS 在大规模数据上速度非常快,也解释了为什么到目前为止 Spark MLlib 只有 ALS 一种推荐算法。

2016-04-22 09:41:26

阅读数:593

评论数:0

Spark 基础 —— 类与伴生对象(companion object)

只要分析过的任务可能会重复出现,就值得花时间改善代码。对缺失值分析而言,我们的第一个任务就是写一个类似于 Spark StatCounter 类的东西,以正常处理缺失值。import org.apache.spark.util.StatCounter class NAStatCounter ext...

2016-04-22 08:56:41

阅读数:1469

评论数:0

mac 下 hadoop、spark 的安装及配置

until vs tountil 不包括右端点; to 包括右端点;

2016-04-21 22:39:46

阅读数:328

评论数:0

Scala 集合 —— Array、Map、Seq、Set

Scala 集合类库很庞大,包括 List,Set,Map,Array等。利用 toList,toSet 和 toArray 方法,各种集合类型可以方便地互相转换。MapScala 的 Map 类没有提供根据内容的键或值排序的方法,当我们可以将 Map 转换为 Scala 的 Seq 类型,而 S...

2016-04-21 22:36:37

阅读数:4269

评论数:0

Spark 基础 —— Map 容器

mapValuesmapValues 顾名思义,仅对 values 进行映射,也即 key 保持不变,所以要求,原始数据必须是键值对。val animals = sc.parallelize(List("Dog", "Cat", "Tiger&qu...

2016-04-21 22:21:17

阅读数:507

评论数:0

Spark MLlib(一)正则化特征

Spark 在其 MLlib 机器学习库中内置了一些函数用于特征的缩放和标准化。 (1)StandardScaler:标准正太变换 (2)Normalizer:特征向量正则化(范数为1,xi∥x∥\frac {x_i}{\|\mathbf x\|}) pysparkfrom pyspark.mll...

2016-04-01 11:14:10

阅读数:2196

评论数:0

Spark 基础 —— sc.broadcast

broadcast,广播,顾名思义,就是分布式集群环境下,将数据从一个节点发送到其他各个节点上去。这样的场景很多,比如 driver 上有一张表,其他节点上运行的 task 需要 lookup 这张表,那么 driver 可以先把这张表 copy 到这些节点,这样 task 就可以在本地查表了。如...

2016-04-01 11:02:56

阅读数:4276

评论数:0

numpy.ndarray.flat/flatten 与 Spark 下的 flatMap

numpy.ndarray.flat/flattenflat:使平坦,在编程上就对应着二维变一维。 (1)numpy.ndarray.flat 和 numpy,ndarray.T 一样不是函数调用,因此不可以跟函数调用操作符(也即一对小括号),因此也不可以指定平坦化的参数,比如按行平坦还是按列平坦...

2016-04-01 10:03:31

阅读数:2958

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭