- 博客(7)
- 资源 (2)
- 收藏
- 关注
原创 scala的提取器(Extractor)
scala的提取器(Extractor)在定义scala类的时候,如果额外自定义了unapply()方法,那么该类的对象就是一个提取器,我们就能从该对象中获取到构造该对象的值有哪些。先来看一下没有定义unapply()方法的普通类——(1)scala中普通类class普通类需要通过new 操作来创建对象,每new 一个实例就创建一个全新的对象。// 定义
2017-04-29 19:18:27 440
原创 Scala模式匹配语法讲解
scala中的模式匹配,类似于java中的 switch-case 语法,它有三种实现:(1)x match(arg:type) - case XXXX => {…} case YYYY(2)使用样例类实现模式匹配(3)使用偏函数实现模式匹配——————(1)x match(arg:type) - case XXXX => {…} case YYYYscala的模式
2017-04-29 19:13:18 884
原创 Kafka介绍, kafka主题的副本机制
1、Kafka概览Apache下的项目Kafka(卡夫卡)是一个分布式流处理平台,它的流行是因为卡夫卡系统的设计和操作简单,能充分利用磁盘的顺序读写特性。kafka每秒钟能有百万条消息的吞吐量,因此很适合实时的数据流处理。例如kafka在线日志收集系统可作为flume的实时消息sink端,再通过kafka的消费者将消息实时写入hbase数据库中。卡夫卡以topic分类对记录进行存储,每个记...
2017-04-28 11:52:23 9694 3
原创 spark的作业提交流程
spark的作业调度分为3个级别:DAG调度器 ==> TaskScheduler(任务调度器) ==> SchedulerBackend(后台调度器)一、DAGScheduler当我们写好应用程序,程序里面有sc.count()或sc.collect()时,或者我们在scala shell发出的命令中有sc.count()或sc.collect()时(
2017-04-26 21:36:51 1541
原创 Spark的基本数据结构RDD介绍
RDD的全称:弹性分布式数据集合,它是spark的基本数据结构,spark中的所有数据都是通过RDD的形式进行组织。RDD是不可变的数据集合,不可变的意思是RDD中的每个分区数据是只读的。RDD数据集是要做逻辑分区的(这里的分区类似hadoop中的逻辑切片split),每个分区可以单独在集群节点进行计算。RDD数据集中的数据类型可以包含任何java类型、scala类型、python类型
2017-04-26 21:26:07 9268 1
原创 scala函数、运行机制(代码+注释)、柯里化的四种写法
首先,不要被SCALA的奇葩语法吓到了!scala也是一种函数式编程,它把java语言脚本化了,给人的感觉就是“所见即所得”,这一特性类似于Linux下的bash脚本,还有python语言也是脚本语言。scala结合了java和python的优点,能静能动,很灵活。scala的语法很简洁,功能也很强大,但是代码很精简。实现同样的功能,代码量比java语言要少很多。scala代码的可读性也不错,
2017-04-23 17:46:54 2654
原创 HDFS的运行原理,如何实现HDFS的高可用
1 HDFS的运行机制HDFS集群中的节点分为两种角色,一种角色负责管理整个集群的元数据,是名称节点(name node);另一种角色负责存储文件数据块和管理文件数据块,是数据节点(datanode)。1.1 NameNode 1.1.1名称节点负责响应客户端的请求,负责管理整个文件系统的元数据。 1.1.2HDFS的内部工作机制对客户端是透明的,客户端对HD...
2017-04-05 08:55:44 11367 2
[案例]从冷备份的hdfs数据中恢复到原来的hbase表
2018-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人