spark
天涯泪小武
开源贡献者,有代码洁癖。京东coder。
展开
-
3 Spark入门distinct、union、intersection,subtract,cartesian等数学运算
这一篇是一些简单的Spark操作,如去重、合并、取交集等,不管用不用的上,做个档案记录。distinct去重import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.SparkSession;import jav...原创 2018-04-16 10:18:29 · 2380 阅读 · 0 评论 -
3 Spark机器学习 spark MLlib 矩阵向量、矩阵运算Breeze库-1
机器学习里矩阵是必不可少的,无论Python、Java能做机器学习的语言,都会提供比较优质的矩阵库。spark mllib中提供的矩阵库是Breeze,可以简单看看Breeze库的情况。ScalaNLP是一套机器学习和数值计算的库,主要是关于科学计算、机器学习和自然语言处理(NLP)的,里面包含三个库,Breeze、Epic和Puck。其中Breeze是机器学习和数值计算库,Ep...原创 2018-09-20 15:35:38 · 3717 阅读 · 0 评论 -
2 Spark机器学习 spark MLlib Statistics统计入门
spark中比较核心的是RDD操作,主要用于对数据的处理、转换。在机器学习中,数据的处理也非常重要,矩阵、统计什么的都很常见。这一篇看一下Statistics统计相关的操作。本系列文章是边看书学边写,书是看的黄美灵的spark mllib机器学习。我会抽取比较靠谱的有用的知识写成文章。MLlib Statistics是基础统计模块,能对RDD数据进行统计,包括汇总统计、相关系数、分层抽...原创 2018-09-18 16:52:16 · 2208 阅读 · 1 评论 -
10 搭建Hadoop单机环境,使用spark操作Hadoop文件
前面几篇主要是sparkRDD相关的基础,也使用过textFile来操作过本机的文档。实际应用中,操作普通文档的机会不多,更多的时候是操作kafka的流和Hadoop上文件。下面我们就在本机搭建一个Hadoop环境。1 安装配置Hadoop首先下载Hadoop的压缩包,http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.3/h...原创 2018-04-28 10:30:46 · 2496 阅读 · 0 评论 -
9 spark入门之采样、搜集部分结果sample、takeOrdered
spark提供了对结果集RDD进行随机采样,即获取一小部分数据的功能。其中有sample、takeSample、takeOrdered等方法。import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.SparkSes...原创 2018-04-24 14:12:25 · 10571 阅读 · 1 评论 -
8 spark之基本的Action操作 first, take, collect, count, countByValue, reduce, aggregate, fold,top
转载自:https://blog.csdn.net/t1dmzks/article/details/70667011first返回第一个元素 scalascala> val rdd = sc.parallelize(List(1,2,3,3))scala> rdd.first()res1: Int = 1java JavaRDD<Integer> rdd = s...转载 2018-04-19 13:59:35 · 1543 阅读 · 0 评论 -
7 spark入门键值对操作subtractByKey, join, rightOuterJoin, leftOuterJoin
转账自:https://blog.csdn.net/t1dmzks/article/details/70557249subtractByKey函数定义def subtractByKey[W](other: RDD[(K, W)])(implicit arg0: ClassTag[W]): RDD[(K, V)]def subtractByKey[W](other: RDD[(K, W)], n...转载 2018-04-19 13:57:00 · 2468 阅读 · 0 评论 -
6 spark入门键值对操作sortByKey、groupByKey、groupBy、cogroup
SortByKey从名字就能看到,是将Key排序用的。如一个PariRDD-["A":1, "C":4, "B":3, "B":5],按Key排序的话就是A、B、C。注意,这个方法只是对Key进行排序,value不排序。上代码/** * 用于对pairRDD按照key进行排序 * @author wuweifeng wrote on 2018/4/18. */public class Te...原创 2018-04-19 10:40:57 · 2622 阅读 · 0 评论 -
Spark——RDD操作详解
转载自:https://blog.csdn.net/zhaojw_420/article/details/53261965一、基本RDD 1、针对各个元素的转化操作 最常用的转化操作是map()和filter()。转化操作map()J接收一个函数,把这个函数用于RDD中的每一个元素,将函数的返回结果作为结果RDD中对应元素。而转化操作filter()则接收一个函数,将RDD满足该函数的元素放入新的...转载 2018-04-13 11:31:15 · 10308 阅读 · 0 评论 -
2 Spark入门reduce、reduceByKey的操作
上一篇是讲map,map的主要作用就是替换。reduce的主要作用就是计算。package reduce;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import...原创 2018-04-13 11:22:32 · 26549 阅读 · 0 评论 -
5 spark入门键值对foldByKey
foldByKey函数是PairRDD<K, V>对V做合并处理,方法是这样的可以看到,第一个参数是zeroValue,这个就是用来对原始的V做合并操作的,后面的参数是一个JFunction操作。对于一个PairRDD,如Array(("A",0),("A",2),("B",1),("B",2),("C",1))进行foldByKey(2)、并且function是x+y的操作时,运原创 2018-04-18 17:14:53 · 1151 阅读 · 0 评论 -
4 spark入门键值对聚合操作combineByKey
combineByKey是spark中一个核心的高级函数,其他多个键值对函数都是用它来实现的,如groupByKey,reduceByKey等等。这是combineByKey的方法。可以看到主要有三个参数,后面还有分区等参数就不管了。主要来看前三个参数,分别是createCombiner,mergeValue,mergeCombiners,参数类型是JFunction(接收一个参数,返回另一个类型...原创 2018-04-18 15:11:18 · 656 阅读 · 0 评论 -
1 Spark入门各种map的操作,java语言
Spark基本操作主要就是各种map、reduce,这一篇从各种map开始。由于scala不熟悉,而且语法太精简,虽然代码量少了,但是可读性差了不少,就还是用Java来操作。直接开始上代码了,注意,如果只是本地测试spark的各种api的使用,是不需要下载安装任何spark、Hadoop的。直接引入maven依赖就可以了。新建一个java的maven项目,pom中引入spark的依赖。<?x...原创 2018-04-12 15:46:21 · 9970 阅读 · 4 评论 -
3 Spark机器学习 spark MLlib 矩阵向量、矩阵运算Breeze库-2
上一篇是矩阵的创建、连接等相关操作。这一篇主要是矩阵的数值计算。1 基本运算元素加法 a+b 元素乘法 *:* 元素除法 /:/ 元素比较 <:< 元素相等 :== 元素追加 :+= 元素追乘 :*= 元素最大值 max(a) 元素最大值及位置 argmax(a) package b...原创 2018-10-16 10:45:15 · 1641 阅读 · 1 评论