Spark
土豆钊
求知若渴,大智若愚
展开
-
Spark之Transformations算子(二)
继上次介绍了Spark部分算子之后,本文继续介绍余下的Transformations算子。(11)reduceByKey必须注意,这里操作的也是key-value类型的RDD,专用名叫做pair RDD,本算子会要求传入一个函数,对于value进行计算,这时候,我们可以通过增加分区的个数来提高并行度。对于Transformations算子,因为每一步不产生结果,只好用foreach的方法来输出结果...原创 2018-03-08 17:29:01 · 356 阅读 · 0 评论 -
Spark之Action算子(一)
Spark算子分为两大类,本文介绍Action类算子。(1)reduce算子按照官网的解释,传入的参数是一个函数,一个双参数,返回值唯一的函数,建议,该函数是可交换的,是可联合的,如此,才能实现正确的并行计算。这里的函数,我平时用过加法操作,最大值操作,最小值操作;记得大数据里提过这个概念,诸如此类可以合并操作的函数,是最合适的,平均值类的,就不适用于此种操作了。如上图,使用并行化产生了一个算子,...原创 2018-03-05 20:01:53 · 14312 阅读 · 0 评论 -
Spark之Transformations算子(一)
对于Spark学习来说,掌握常用的诸多算子,是学习的关键,在这里对于一部分算子进行介绍。首先,对于RDD的生成,通常有两种方式:可通过并行化scala集合创建RDDval rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8),5);前面传入的数据,后面可以传入分区的数目,也可以不传通过HDFS支持的文件系统创建,RDD里没有真的数据,只是记录了元数据val rd...原创 2018-03-05 14:00:54 · 249 阅读 · 0 评论 -
从Intellij IDEA开始第一个Spark程序
先前在Windows上倒腾了一份Scala的开发环境,然后换到Mac环境上,重新来了一遍,为了防止自己的再度忘记,记录在本博客中。好,废话不说,开始。1:Intellij IDEA的安装习惯用Eclipse了,最近才开始使用Intellij IDEA,感觉功能还是很强大的;这里只讲述具体的安装,我安装的是community版本,2017.3.15的版本,最近更新的社区版本了。下载地址里面有wind...原创 2018-03-24 20:22:59 · 10596 阅读 · 1 评论 -
实时日志监控系统-全览
大数据处理,大致可以分为两大模块:离线数据处理:比如说电商、运营商出现的大批量的日志,可以由flume、sqoop或者其他路径,导入到HDFS中,然后经过数据清洗,使用Hive进行分析和处理,对于优化服务器资源等有很好的作用;个人觉得,支付宝的年账单就是离线数据处理的应用之处了。实时数据处理:对于有些业务需要,可能第二天或者更晚的时候进行分析无关紧要,但对于一些高频的金融交易来说,实时性就太重要了...原创 2018-03-03 16:26:22 · 22638 阅读 · 7 评论 -
聊聊Spark中的宽依赖和窄依赖
开门见山,本文就针对一个点,谈谈Spark中的宽依赖和窄依赖,这是Spark计算引擎划分Stage的根源所在,遇到宽依赖,则划分为多个stage,针对每个Stage,提交一个TaskSet:上图:一张网上的图:基于此图,分析下这里为什么前面的流程都是窄依赖,而后面的却是宽依赖:我们仔细看看,map和filter算子中,对于父RDD来说,一个分区内的数据,有且仅有一个子RDD的分区来消费该数据。同样...原创 2018-07-08 22:35:46 · 10794 阅读 · 10 评论