Spark成长之路(13)-DataSet与DataFrame

Datasets and DataFrames 前言 源码 DataFrame Dataset 创建dataset 读取json串 RDD转换为Dataset 总结 DataFrame前言spark1.6中引入了DataSet和DataFrame的概念,然后Spark SQL的API也是基于这两个概念的,到2.2推出的稳定版本的Structured Streaming也是依靠Spark SQL的AP...
阅读(126) 评论(0)

Spark成长之路(12)-Gradient Descent

机器学习理论之一...
阅读(161) 评论(0)

Spark成长之路(11)-ngram

ngram 简介N-gram代码object NGramExample extends SparkObject { def main(args: Array[String]): Unit = { val wordDataFrame = spark.createDataFrame(Seq( (0, Array("Hi", "I", "heard", "about", "Spark...
阅读(198) 评论(0)

Spark成长之路(10)-CountVectorizer

CountVectorizer 简介用文档中单个单词出现的次数组成一个向量。代码object CountVectorizerExample { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().getOrCreate() val df = spark.createDataFrame...
阅读(148) 评论(0)

Spark成长之路(9)-Word2Vec

word2vec 简介将文本映射到K维空间的向量值。代码object Word2VecExample { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().getOrCreate() spark.sparkContext.setLogLevel("WARN") // Inpu...
阅读(137) 评论(0)

Spark成长之路(8)-TFIDF

TDIDF 简介 源码 输出简介文本特征提取算法,给某个文章归档某个类别时特别有用。源码object TfIdfExample { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().getOrCreate() spark.sparkContext.setLogLevel("WARN"...
阅读(140) 评论(0)

Spark成长之路(7)-Hypothesis testing

Hypothesis testing 样例import org.apache.spark.ml.linalg.{Vector, Vectors} import org.apache.spark.ml.stat.ChiSquareTest import org.apache.spark.sql.SparkSessionobject HypothesisTestingExample { def mai...
阅读(187) 评论(0)

Spark成长之路(6)-Correlation

spark ml spark准备彻底支持DataFrame特性,所以重新了ml的api,原先的以RDD为基础的api都放在了mllib中,但是都是维护阶段,推荐使用ml下的api。相关性有2种相关性,皮尔森积矩相关系数和斯皮尔曼等级相关,具体原理请自行搜索,主要是判断两个向量的关联性。样例import org.apache.spark.ml.linalg.{Matrix, Vectors} impo...
阅读(161) 评论(0)

Spark成长之路(5)-消息队列

参考文章:Spark分布式消息发送流程 监听器模式 volatile 因为之前被这个消息队列坑过(stage夯住原因分析),所以现在研究源码,先从它下手,解答一下我这么久的疑惑。继承关系ListenerBus->SparkListenerBus->LiveListenerBus。原始基类为ListenerBus。运用的设计模式为监听器模式。ListenerBusspark包中私有特质,继...
阅读(191) 评论(0)

Scala练习-分块查找

原理 分块查找 前言前几天研究Spark分区器的时候,Range分区器的原理中边界划定时就用到了分块查找算法,当时不知道这个名词,今天学习的时候,发现原理就是分块查找啊。多学习肯定没错的,一下子加速我的理解。代码package day15import day14.Utils/** * Created by doctorq on 2017/6/30. * 分块查找:适用于表结构动态变化的...
阅读(183) 评论(0)
577条 共58页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1492151次
    • 积分:20057
    • 等级:
    • 排名:第432名
    • 原创:567篇
    • 转载:1篇
    • 译文:9篇
    • 评论:557条
    博客专栏