2017年04月_宝罗Paul

12月 10月 09月 06月 05月 04月 03月 01月

原创 scala的提取器(Extractor)

scala的提取器(Extractor)在定义scala类的时候，如果额外自定义了unapply()方法，那么该类的对象就是一个提取器，我们就能从该对象中获取到构造该对象的值有哪些。先来看一下没有定义unapply()方法的普通类——（1）scala中普通类class普通类需要通过new 操作来创建对象，每new 一个实例就创建一个全新的对象。// 定义

2017-04-29 19:18:27 422

原创 Scala模式匹配语法讲解

scala中的模式匹配，类似于java中的 switch-case 语法，它有三种实现：（1）x match(arg:type) - case XXXX => {…} case YYYY（2）使用样例类实现模式匹配（3）使用偏函数实现模式匹配——————（1）x match(arg:type) - case XXXX => {…} case YYYYscala的模式

2017-04-29 19:13:18 863

原创 Kafka介绍, kafka主题的副本机制

1、Kafka概览Apache下的项目Kafka(卡夫卡)是一个分布式流处理平台，它的流行是因为卡夫卡系统的设计和操作简单，能充分利用磁盘的顺序读写特性。kafka每秒钟能有百万条消息的吞吐量，因此很适合实时的数据流处理。例如kafka在线日志收集系统可作为flume的实时消息sink端，再通过kafka的消费者将消息实时写入hbase数据库中。卡夫卡以topic分类对记录进行存储，每个记...

2017-04-28 11:52:23 9648 3

原创 spark的作业提交流程

spark的作业调度分为3个级别：DAG调度器 ==> TaskScheduler(任务调度器) ==> SchedulerBackend(后台调度器)一、DAGScheduler当我们写好应用程序，程序里面有sc.count()或sc.collect()时，或者我们在scala shell发出的命令中有sc.count()或sc.collect()时（

2017-04-26 21:36:51 1527

原创 Spark的基本数据结构RDD介绍

RDD的全称：弹性分布式数据集合，它是spark的基本数据结构，spark中的所有数据都是通过RDD的形式进行组织。RDD是不可变的数据集合，不可变的意思是RDD中的每个分区数据是只读的。RDD数据集是要做逻辑分区的（这里的分区类似hadoop中的逻辑切片split），每个分区可以单独在集群节点进行计算。RDD数据集中的数据类型可以包含任何java类型、scala类型、python类型

2017-04-26 21:26:07 9184 1

原创 scala函数、运行机制(代码+注释)、柯里化的四种写法

首先，不要被SCALA的奇葩语法吓到了！scala也是一种函数式编程，它把java语言脚本化了，给人的感觉就是“所见即所得”，这一特性类似于Linux下的bash脚本，还有python语言也是脚本语言。scala结合了java和python的优点，能静能动，很灵活。scala的语法很简洁，功能也很强大，但是代码很精简。实现同样的功能，代码量比java语言要少很多。scala代码的可读性也不错，

2017-04-23 17:46:54 2628

原创 HDFS的运行原理,如何实现HDFS的高可用

1 HDFS的运行机制HDFS集群中的节点分为两种角色，一种角色负责管理整个集群的元数据，是名称节点（name node）；另一种角色负责存储文件数据块和管理文件数据块，是数据节点(datanode)。1.1 NameNode 1.1.1名称节点负责响应客户端的请求，负责管理整个文件系统的元数据。 1.1.2HDFS的内部工作机制对客户端是透明的，客户端对HD...

2017-04-05 08:55:44 11319 2

爬虫技能树

爬虫技能书，介绍成为爬虫大师必备的技能：前端、网络、存储等待

2018-09-19

[案例]从冷备份的hdfs数据中恢复到原来的hbase表

介绍了从之前冷备份到hdfs的Hbase数据中恢复数据到hbase表的操作流程，使用的hbase-1.1，hadoop-2.7

2018-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人