spark
frogbar
这个作者很懒,什么都没留下…
展开
-
spark saveASTextFile
转自 https://www.cnblogs.com/devilmaycry812839668/p/6922738.htmlscala> val rd1 =sc.parallelize(Array(1 to 10000))rd1: org.apache.spark.rdd.RDD[scala.collection.immutable.Range.Inclusive] = ParallelC转载 2018-01-26 17:02:26 · 13756 阅读 · 1 评论 -
相关数据集地址
spark sample_linear_regression_data.txthttp://code.taobao.org/p/bigdatas/diff/14/trunk/spark-1.0.1/mllib/data/sample_libsvm_data.txt转载 2018-02-01 17:04:36 · 650 阅读 · 0 评论 -
spark ML 与 MLlib 的区别
https://www.zhihu.com/question/35225203spark.mllib中的算法接口是基于RDDs的;spark.ml中的算法接口是基于DataFrames的。技术角度上,面向的数据集类型不一样:ML的API是面向Dataset的(Dataframe是Dataset的子集,也就是Dataset[Row]), mllib是面对RDD的。Dataset和转载 2018-02-01 14:44:21 · 615 阅读 · 0 评论 -
spark-DataFrame操作
http://blog.csdn.net/dabokele/article/details/52802150转载 2018-01-17 09:51:04 · 166 阅读 · 0 评论 -
spark sql构建DataFrame从各种格式数据文件
转自http://www.cnblogs.com/ywjy/p/7747482.html转载 2018-01-31 10:56:28 · 221 阅读 · 0 评论 -
spark DataFrame 相关操作简记
创建Dataset和Dataframe最简单的方式就是使用spark.range方法来创建一个Datasetval DS = spark.range(5, 100, 5)创建DataFrameval DF = spark.createDataFrame(List(("Scala", 35), ("Python", 30), ("R", 15), ("Java", 20)))原创 2018-01-23 13:41:33 · 556 阅读 · 0 评论 -
sparksession相关概念
在2.0版本之前,与Spark交互之前必须先创建SparkConf和SparkContext,代码如下: val sparkConf = new SparkConf().setAppName("SparkSessionZipsExample").setMaster("local") val sc = new SparkContext(sparkConf).set("spark.some.原创 2018-01-23 13:40:20 · 762 阅读 · 0 评论 -
spark 部署方式
spark部署方式目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARNStandalone模式即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。Spark On Mesos模式官方推荐这种模式(当然,原因之一是血缘关系).1)粗粒度模式1转载 2018-01-23 13:36:30 · 1279 阅读 · 0 评论 -
spark-submit 相关参数
spark-submit 相关参数master url:local: 使用1个worker线程在本地运行Spark程序local[k]: 使用k个worker线程在本地运行Spark程序local[*]: 使用所有剩余worker线程在本地运行Spark程序spark://HOST:PORT: 连接到Spark Standalone集群,以便在该集群上运行Spark应用转载 2018-01-23 13:34:42 · 568 阅读 · 0 评论