Spark成长之路(7)-Hypothesis testing

Hypothesis testing 样例import org.apache.spark.ml.linalg.{Vector, Vectors} import org.apache.spark.ml.stat.ChiSquareTest import org.apache.spark.sql.SparkSessionobject HypothesisTestingExample { def mai...
阅读(17) 评论(0)

Spark成长之路(6)-Correlation

spark ml spark准备彻底支持DataFrame特性,所以重新了ml的api,原先的以RDD为基础的api都放在了mllib中,但是都是维护阶段,推荐使用ml下的api。相关性有2种相关性,皮尔森积矩相关系数和斯皮尔曼等级相关,具体原理请自行搜索,主要是判断两个向量的关联性。样例import org.apache.spark.ml.linalg.{Matrix, Vectors} impo...
阅读(18) 评论(0)

Spark成长之路(5)-消息队列

参考文章:Spark分布式消息发送流程 监听器模式 volatile 因为之前被这个消息队列坑过(stage夯住原因分析),所以现在研究源码,先从它下手,解答一下我这么久的疑惑。继承关系ListenerBus->SparkListenerBus->LiveListenerBus。原始基类为ListenerBus。运用的设计模式为监听器模式。ListenerBusspark包中私有特质,继...
阅读(82) 评论(0)

Scala练习-分块查找

原理 分块查找 前言前几天研究Spark分区器的时候,Range分区器的原理中边界划定时就用到了分块查找算法,当时不知道这个名词,今天学习的时候,发现原理就是分块查找啊。多学习肯定没错的,一下子加速我的理解。代码package day15import day14.Utils/** * Created by doctorq on 2017/6/30. * 分块查找:适用于表结构动态变化的...
阅读(73) 评论(0)

Scala练习-斐波那契查找

斐波那契数列 原理...
阅读(74) 评论(0)

Scala练习-插值查找

原理 源码 package day15 import day14.Utils import day15.BinarySearch.printlnArrayimport scala.collection.mutable.ArrayBuffer/** * Created by doctorq on 2017/6/30. * 插值查找:改进二分查找的算法,在数值范围比较大,分布比较均匀时可以...
阅读(88) 评论(0)

Scala练习-哈希查找

原理...
阅读(63) 评论(0)

Scala练习-顺序查找

顺序查找又名线性查找 object SortSearch extends App { def search(array: Array[Int], find: Int): Unit = { if (array.size == 0) return println(s"I want to find ${find}: ") val findArray = for (i <- 0 u...
阅读(59) 评论(0)

Spark成长之路(3)-再谈RDD的Transformations

参考文章 coalesce()方法和repartition()方法 Transformations repartitionAndSortWithinPartitions 解释 返回 源码 coalesce和repartition 解释 返回 源码 pipe 解释 返回 源码 cartesian 解释 返回 源码 cogroup 解释 源码 join 解释 返回 源码 sortByKey...
阅读(120) 评论(0)

Scala中的模糊概念

先记录,后续学完再重点攻破 方法和函数 协变和逆变...
阅读(133) 评论(0)
572条 共58页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1264389次
    • 积分:17979
    • 等级:
    • 排名:第498名
    • 原创:561篇
    • 转载:2篇
    • 译文:9篇
    • 评论:547条
    博客专栏