scala & spark
文章平均质量分 61
宝罗Paul
这个作者很懒,什么都没留下…
展开
-
Spark的基本数据结构RDD介绍
RDD的全称:弹性分布式数据集合,它是spark的基本数据结构,spark中的所有数据都是通过RDD的形式进行组织。RDD是不可变的数据集合,不可变的意思是RDD中的每个分区数据是只读的。RDD数据集是要做逻辑分区的(这里的分区类似hadoop中的逻辑切片split),每个分区可以单独在集群节点进行计算。RDD数据集中的数据类型可以包含任何java类型、scala类型、python类型原创 2017-04-26 21:26:07 · 9268 阅读 · 1 评论 -
spark的作业提交流程
spark的作业调度分为3个级别:DAG调度器 ==> TaskScheduler(任务调度器) ==> SchedulerBackend(后台调度器)一、DAGScheduler当我们写好应用程序,程序里面有sc.count()或sc.collect()时,或者我们在scala shell发出的命令中有sc.count()或sc.collect()时(原创 2017-04-26 21:36:51 · 1541 阅读 · 0 评论 -
Scala模式匹配语法讲解
scala中的模式匹配,类似于java中的 switch-case 语法,它有三种实现:(1)x match(arg:type) - case XXXX => {…} case YYYY(2)使用样例类实现模式匹配(3)使用偏函数实现模式匹配——————(1)x match(arg:type) - case XXXX => {…} case YYYYscala的模式原创 2017-04-29 19:13:18 · 884 阅读 · 0 评论 -
scala的提取器(Extractor)
scala的提取器(Extractor)在定义scala类的时候,如果额外自定义了unapply()方法,那么该类的对象就是一个提取器,我们就能从该对象中获取到构造该对象的值有哪些。先来看一下没有定义unapply()方法的普通类——(1)scala中普通类class普通类需要通过new 操作来创建对象,每new 一个实例就创建一个全新的对象。// 定义原创 2017-04-29 19:18:27 · 441 阅读 · 0 评论 -
scala函数、运行机制(代码+注释)、柯里化的四种写法
首先,不要被SCALA的奇葩语法吓到了!scala也是一种函数式编程,它把java语言脚本化了,给人的感觉就是“所见即所得”,这一特性类似于Linux下的bash脚本,还有python语言也是脚本语言。scala结合了java和python的优点,能静能动,很灵活。scala的语法很简洁,功能也很强大,但是代码很精简。实现同样的功能,代码量比java语言要少很多。scala代码的可读性也不错,原创 2017-04-23 17:46:54 · 2654 阅读 · 0 评论 -
分布式sparkSQL引擎应用:从远程通过thriftServer连接spark集群处理hive中的数据
实现原理:客户端(java程序)与thriftServer连接,thriftServer再代理客户端转换成spark的操作流程,再加载hive的数据到spark的worker节点,并运行Map-Reduce作业。这里只是个小案例,和大家一起来探讨一下原理。步骤:分发三个配置文件hdfs-site.xml、core-site.xml、hive-site.xml到所有worker节原创 2017-05-02 14:03:10 · 3548 阅读 · 1 评论 -
高可用Spark集群的主备切换过程(原理概要)
Spark在standalone运行模式下,可以配置spark master的HA,当active master节点宕机,就能把standby master切换成active。主备切换的机制有2种:(1)基于文件系统的切换——在active master挂掉后,手动切换到standby master节点上。(2)基于zookeeper的切换——自动切换master。 那么,活跃原创 2017-06-10 17:40:21 · 2657 阅读 · 1 评论 -
spark2.1 yarn cluster作业失败AnnotatedConnectException: Connection refused
作业提交脚本和spark作业相关的python代码 [root@tony-client-1-001 ~]# vim /mnt/tony/rec_model/model/data/f0.sh#!/usr/bin/env bashcurr_dir=`pwd`src_path=${curr_dir}spark_lib_path='/usr/hdp/2.5.0.0-1245/spark/li...原创 2018-06-12 20:14:30 · 3846 阅读 · 0 评论