不忘初心$$-CSDN博客

原创 hive错误 Required field 'client_protocol' is unset! Struct:TOpenSessionReq(client_protocol:null, confi

任意位置使用beeline启动hive,hive启动报错信息如下19/11/28 15:01:38 ERROR HiveConnection: Error opening sessionorg.apache.thrift.TApplicationException: Required field 'client_protocol' is unset! Struct:TOpenSessionRe...

2019-11-28 15:38:03 3801

原创简易的Spark底层通信框架实现

模拟Spark的Master和Worker通信一个Master管理Worker若干个Worker（Worker可以按需添加）注册发送心跳图解实现思路构建Master,Worker阶段构建Master ActorSystem Actor构建Worker ActorSystem ActorWorker注册阶段Worker进程向Mast...

2019-11-22 17:43:05 541

原创 Flink的容错

一.CheckPoint1.1CheckPoint介绍Checkpoint是Flink容错的核心机制,它可以定期的从各个Operator处理的数据进行快照存储,如果Flink程序出现宕机,可以重新从这些快照中恢复数据每个Checkpoint的应用在启动时,Flink的JobManager为其创建一个CheckpointCoordinator(检查点协调器),CheckpointCoordin...

2019-11-17 21:23:07 492

原创 Spark中的RDD是什么?

cluster模式下，无论driver还是worker都是运行在worker上面的spark on Yarnspark 运行在Yarn上，是最为复杂的如果运行spark yarn上面，出现资源不足，关闭yarn中资源检查为了更好的监控查看在yarn上运行完成的spark application 需要配置历史服务器，第一，配置yarn-site.xml表示的是Mapreduce His...

2019-11-14 20:54:44 1184

原创什么是Flink?

Flinklogo介绍流的划分:有界流:对源源不断的流进行边界划分无界流2.Flink集群安装Flink支持多种安装模式local(本地)–单机StandAloneyarn为分布环境部署角色:JobClient,JobManger,TaskManagerFlink程序需要提交给JobClientJobClient将作业提交给...

2019-11-14 19:48:38 1446

原创 Spark笔记一(环境和WordCount入门案例)

sparkCore:核心模块spark框架核心,主要内容是RDD针对海量数据进行离线分析,类似于Mapreduce框架sparkSQL:使用最多的模块类似hive框架,提供sql功能,分析数据,远远不止sql,还提供DSL(类似python中的pandas库)sparkStream:针对流式数据处理的模块性能很稳,在实时不高德时候,选择此模块structured Streami...

2019-11-08 23:02:22 339

原创 Akka并发编程框架

Akka并发编程框架1. Akka特性Akka是一个用于构造高并发,分布式和可扩展的基于事件驱动的应用的工具包,Akka是使用scala开发的库,同时可以使用scala和java语言来开发基于Akka的应用程序2. Akka特性提供基于异步非阻塞,高性能的事件驱动编程模型内置容错机制,允许Actor在出错的时候进行恢复或者重置操作超级轻量级的事件处理(每GB堆内存几百万的Actor)...

2019-11-04 01:26:53 589

原创 Scala基础语法小结(六)

高阶函数scala混合了面向对象和函数式的特性,在函数式编程语言中,函数是"头等公民",它和Int,String,Class等其他类型处于同等的地位,可以像其他类型的变量一样被传递和操作作为值的函数在scala中,函数就像数字,字符串一样,可以将函数传递给一个方法,我们可以对算法进封装,然后将具体的动作传递给方法示例示例说明将一个整数列表中的每个元素转换为对应个数的小星星List(1...

2019-11-02 23:24:30 214

原创 Scala基础语法小结(五)

1.异常处理1.1 捕获异常1.2 抛出异常2.提取器3.泛型3.1 定义一个泛型方法3.2 泛型类3.3 上下界3.3.1 上界3.3.2 下界3.4 协变、逆变、非变3.4.1 协变3.4.2 逆变3.4.3 非变...

2019-11-01 21:19:04 165

原创 Scala基础语法小结(四)

1.样例类样例类是一种特殊的类,它可以用来快速定义一个用于保存数据的类(类似于Java POJO类)1.1定义样例类语法:case class 样例类名([var/val] 成员变量名1:类型1, 成员变量名2:类型2, 成员变量名3:类型3)如果要实现某个成员变量可以被修改,可以添加var默认为val,可以省略1.2定义一个样例类需求:定义一个Person样例类，包含姓...

2019-11-01 20:33:48 303

原创 Scala基础语法小结(三)

dasd

2019-11-01 18:32:53 454 1

原创 Scala基础语法小结(二)

dada

2019-11-01 16:53:30 391 1

原创 Scala中的Actor模式

1. Actor介绍scala中的Actor并发编程模型可以用来开发比java线程效率更高的并发程序2. JAVA并发编程的问题在Java并发编程中,每个对象都有一个逻辑监视器(monitor),可以用来控制对象的多线程访问,我们添加sychronized关键字来标记,需要进行同步加锁访问.这样,通过加锁的机制来确保同一时间只能有一个线程访问共享数据,但是这种方式存在资源争夺,以及死...

2019-11-01 15:01:24 385

原创 Scala基础语法小结(一)

1.声明变量1.1 语法格式在scala中，可以使用val或者var来定义变量，语法格式如下:val/var 变量标识:变量类型 = 初始值val定义的是不可重新赋值的变量var定义的是可重新赋值的变量1.2在解释器中定义一个变量示例：定义一个变量保存一个人的名字"tom"参考代码scala> val name:String = "tom"name: String...

2019-10-30 14:24:15 620

原创 scala函数式编程语法小结

scala简介：scala是运行在JVM上的多范式编程语言，同时支持面向对象和面向函数编程早期，scala刚出现的时候，并没有引起重视，随着spark和kafka这样基于scala的大数据框架的兴起，scala逐步进入大数据开发者的眼帘，scala的主要优势在于它的表达性为什么使用scala？开发大数据应用程序表达能力强，一行代码抵得Java多行，开发速度快兼容java，可以访问庞大的...

2019-10-28 23:36:40 190

原创面试题(1)

1. 你用的IED是什么Intergrated Development Enviroment: 集成开发环境,使用的开发软件版本2. JDK和JRE的区别JDK -->JRE–>JVM(项目的优化可以从JVM的角度入手,进行优化)3. JVM是什么,它本身能不能跨平台JVM的本质是一个进程,本身不支持跨平台,是用来保证java程序的跨平台性4. Java中的内存划分 ,分为...

2019-10-27 13:01:11 199

原创 JVM详解

1、JVM是什么(jdk—>jre—>JVM)JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java语言的一个非常重要的特点就是与平台的无关性。而使用Java虚拟机是实现这一特点的关键。一般的高级语言如果要在不同的平台上运行，至少需要编译成...

2019-10-24 15:35:10 263

原创 Hbase学习笔记(概念和搭建)

Hbase学习笔记1.hbase的基本介绍简介hbase是bigtable的开源java版本,是建立在hdfs之上,提供给高可靠性,高性能,列存储,可伸缩,实时读写的nosql的数据库系统,它介于nosql和RDBMS之间,仅能通过主键(row key)和主键range来检索数据,仅支持单行事务(可通过hive来实现多表join等复杂操作),主要用来存储结构化和半结构化的松散数据hbas...

2019-10-15 20:26:02 256

原创 HDFS元数据管理机制

HDFS元数据管理机制1、 HDFS元数据HDFS的元数据分为内存元数据和元数据文件两类:分别存储在内存和磁盘上元数据概念:文件、目录自身的数据,例如文件名字,目录名,修改信息等等。文件记录的信息的存储相关的新,例如存储块信息,分块信息,副本个数等。用来记录HDFS的Datanode的信息,用于管理Datanode。 &n...

2019-09-29 00:30:29 779

原创 azkaban工作流

Hadoop生态圈azkaban一、工作流工作流简介工作流(workflow),指""业务过程的部分或者整体在计算机应用环境下的自动化。是对工作流程及各操作步骤之间业务规则的抽象、概况描述。工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按照某种规约,自动的传递文档、信息、或者任务。其实也就...

2019-09-28 19:52:54 493

原创 Flume学习笔记

flume学习笔记1.1 什么是flume Flume是Cloudera提供的一个高可用的,高可靠的,分布式海量日志采集,聚合,以及传输的软件.核心思想是吧数据从数据源(source)采集过来,在将收集到的数据发送到指定的sink(目的地),为了保证数据传输成功,会在传输过程中将数据进行...

2019-09-25 17:36:31 118

原创 MapReduce学习笔记

一.MapReduce的计算模型1 Mapreduce的思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小...

2019-09-25 14:53:55 295

原创图解HDFS的读写流程

HDFS读写流程HDFS的简介HDFS是Hadoop Distribute File System 的简称，意为：Hadoop分布式文件系统。是Hadoop核心组件之一,允许使用简单的编程模型在大量廉价的机器上对大数据集进行处理,是作为最底层的分布式存储服务而存在。HDFS的写流程datanode先向namenode汇报自身情况,默认时间3s,如果超时,namenode就会认为dat...

2019-09-11 16:46:21 466

原创动物管理员--------Zookeeper

一． Zookeeper基本知识1.1． ZooKeeper概述Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达到基于数据的集群管理...

2019-09-10 00:33:10 339

qq_42786792的博客