Spark
文章平均质量分 64
unity_kw_do
这个作者很懒,什么都没留下…
展开
-
Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪种转载 2016-10-25 19:49:54 · 315 阅读 · 0 评论 -
Spark性能优化:开发调优篇
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业更简单,更省力!转载 2016-10-25 19:48:44 · 245 阅读 · 0 评论 -
pySpark(一)--创建RDD
我们知道,在Spark中创建RDD的创建方式大概可以分为三种:(1)、从集合中创建RDD;(2)、从外部存储创建RDD;(3)、从其他RDD创建。而从集合中创建RDD,Spark主要提供了两中函数:parallelize和makeRDD。makeRDD函数接收的参数和parallelize完全一致。其实第一种makeRDD函数实现是依赖了parallelize函数的实现原创 2017-05-08 17:43:53 · 769 阅读 · 0 评论 -
Spark-mllib特征提取算法
Spark MLlib 提供三种文本特征提取方法,分别为TF-IDF、Word2Vec以及CountVectorizer,其原理与调用代码整理如下:TF-IDF算法介绍:词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语t在文档原创 2017-05-17 12:05:45 · 712 阅读 · 0 评论 -
Spark-mllib特征转换算法
Tokenization(分词器)算法介绍:Tokenization将文本划分为独立个体(通常为单词)。RegexTokenizer基于正则表达式提供更多的划分选项。默认情况下,参数“pattern”为划分文本的分隔符。或者可以指定参数“gaps”来指明正则“patten”表示“tokens”而不是分隔符,这样来为分词结果找到所有可能匹配的情况。调用:Scala:i原创 2017-05-17 14:37:05 · 1438 阅读 · 0 评论 -
Spark-mllib特征选择算法
VectorSlicer算法介绍:VectorSlicer是一个转换器输入特征向量,输出原始特征向量子集。VectorSlicer接收带有特定索引的向量列,通过对这些索引的值进行筛选得到新的向量集。可接受如下两种索引1.整数索引,setIndices()。2.字符串索引代表向量中特征的名字,此类要求向量列有AttributeGroup,因为该工具根据Attribute来匹配名字原创 2017-05-17 14:42:26 · 1272 阅读 · 0 评论 -
Spark数据读取格式解析
1.文本文件在 Spark 中读写文本文件很容易。当我们将一个文本文件读取为 RDD 时,输入的每一行 都会成为RDD 的 一个元素。也可以将多个完整的文本文件一次性读取为一个 pair RDD, 其中键是文件名,值是文件内容。 在 Scala 中读取一个文本文件12val inputFile = "file:///h原创 2017-06-02 17:12:24 · 8743 阅读 · 0 评论 -
Spark读取Hbase
object WriteHbase { def main(args: Array[String]): Unit = { //获取conf val conf=HBaseConfiguration.create() val tablenamein = args(0) val tablenameout = args(1) //设置读取的表 conf.s原创 2017-07-20 16:58:24 · 403 阅读 · 0 评论