spark
leemusk
这个作者很懒,什么都没留下…
展开
-
spark编程基础(三)-- Spark SQL
Spark SQLDataFrame与RDD的区别DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询RDD是分布式的Java对象的集合,但是,对象内部结构对于RDD而言却是不可知的。DataFrame是一种以RDD为基础...原创 2020-01-28 17:39:01 · 263 阅读 · 0 评论 -
spark.ml支持算法总结
一、分类1、Logistic regression1.1 适用的数据逻辑回归通常用于处理自变量是连续变量,因变量是分类变量的回归问题。1.2 代码机器结果原创 2019-12-18 11:24:25 · 2979 阅读 · 0 评论 -
spark编程基本(二)-- RDD编程
RDD创建从文件系统中加载数据创建RDD:Spark采用textFile() 方法来从文件系统中加载数据创建RDD方法把文件的URI作为参数,这个URI可以是: 1) 本地文件系统的地址 2) 或者是分布式文件系统HDFS的地址 3) 或者是Amazon S3的地址等通过并行集合(数组)创建RDD:可以调用SparkContext的parallelize方法,在Dri...原创 2019-12-10 21:48:26 · 549 阅读 · 0 评论 -
spark编程基础(一)--spark的设计与运行原理
文章目录基本概念和架构设计基本概念架构设计Spark中各种概念之间的相互关系spark运行基本流程Spark运行构架特点RDDRDD概念RDD操作RDD执行过程RDD特性RDD依赖关系和运行过程Spark的部署和应用方式基本概念和架构设计基本概念RDD:弹性分布式数据集,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。DAG:有向无环图,反映RDD之间的依赖关系。Execu...原创 2019-12-09 09:57:49 · 533 阅读 · 0 评论 -
scala学习(一)-- 基本语法
基本语法写入文件Scala需要使用java.io.PrintWriter实现把数据写入文件import java.io.PrintWriterval out = new PrintWriter("output.txt")for (i <- 1 to 5) out.println(i)out.close如果想把文件保存到一个指定的目录下,就需要给出文件路径。读取文件可以使用...原创 2019-12-06 17:25:29 · 194 阅读 · 0 评论 -
scala学习(四)--面向对象编程基础
面向对象编程基础1. 类1.1 类的定义创建类class Counter { private var value = 0 //Unit表示返回空值 //若果大括号里面只有一行语句,那么也可以直接去掉大括号。 def increment(): Unit = { value += 1} def current(): Int = {value} //可以去掉返回值类型和等号,只保留大...原创 2019-12-06 16:09:46 · 228 阅读 · 0 评论 -
scala学习(二)-- 函数
Scala函数传名调用scala的解释器在解析函数参数时有两种方式:传值调用:先计算参数表达式的值,在应用到函数内部传名调用:将为计算的参数表达式直接应用到函数内部,每次使用传名调用时,解释器都会计算一次表达式的值。object Test { def main(args: Array[String]) { delayed(time()); } d...原创 2019-12-06 16:09:10 · 592 阅读 · 0 评论 -
scala学习(三)-- 数据结构
数据结构val 类型指定对象的指针不可变,但指向的对象可变。1. Scala字符串String对象不可变,若想创建一个可以修改的字符串,可以使用String Builder类。2 Scala数组数组是一种可变的、可索引的、元素具有相同类型的数据集合。使用圆括号。可以不给出数组类型。Scala会自动根据提供的初始数值推断出数组类型。采用Array类型定义的数组属于定长数组,其数组长...原创 2019-12-06 13:13:19 · 179 阅读 · 0 评论 -
spark官方文档学习---聚类
聚类官方文档K-meansk均值是最常用的聚类算法之一,它将数据点聚集成预定数量的聚类。 MLlib实现包括称为kmeans ||的k-means ++方法的并行变体。Means被实现为一个估计器,并生成一个KMeansModel作为基础模型。from pyspark.ml.clustering import KMeansfrom pyspark.ml.evaluation impo...原创 2019-11-22 09:42:12 · 306 阅读 · 0 评论 -
spark官方文档MLlib学习---分类与回归
分类与回归官方文档一、分类1. 逻辑分类Logistic回归是一种用于预测分类响应的流行方法。 这是广义线性模型的一种特殊情况,可以预测结果的可能性。 在spark.ml中,逻辑回归可以通过使用二项式逻辑回归来预测二进制结果,或者可以通过使用多项逻辑回归来预测多类结果。 使用family参数在这两种算法之间进行选择,或者不设置它,Spark会推断出正确的变体。通过将family参数设置为...原创 2019-11-21 22:58:21 · 822 阅读 · 0 评论 -
spark官方文档Mlib学习(一)
机器学习库指南MLlib时Spark的机器学习库,其目标是使实用的机器学习可扩展切容易。在较高级别,它提供了以下工具:机器学习算法:常用的学习算法如分类,回归,聚类,和协同过滤。特征化:特征抽取,变换,降维和选择管道:用于构建,评估和调整ML管道的工具声明:基于DataFrame的API是主要API基于MLlib RDD的API现在处于维护模式。Data sources在本节中...原创 2019-11-20 16:54:52 · 1095 阅读 · 1 评论