LV_ZFG-CSDN博客

原创 spark--持久化

相信大家都有这样的经历，当家里要来客人的时候会提前去买一大包食材准备用来招待，，可是每一个食材的保存时间是不一样的啊，那怎么办？我们会将食物进行分别存放有的放了桌子上，有的放冰箱里，这就是持久化的思想，当我们有目的之后，我们会去将计算结果进行存储，可是存储在哪里呢，如果放到磁盘中，我们的存储量虽然大了，但是问题是他的处理速度很慢，每次都需要去拿取数据然后在进行处理，对于磁盘的读写速度都是一个限制，...

2018-09-25 11:47:46 290

原创 spark--shuffle

在之前的博客里，我对于hadoop和spark的相关基础进行了一定的讲解，大致的运行流程已经基本清晰，就像一辆极品的跑车，大致的框架已经出来了，剩下的是优化的操作，就像兰博基尼和拖拉机的区别，都是4个轮子发动机驱动，但是，我想大家应该都喜欢兰博基尼不喜欢拖拉机吧，尤其是男生，好车发动机的轰鸣声，听着都会热血沸腾吧！那么，spark的研发在出期的时候因为当时条件的限制，数据量不会那么大，已有的硬件处...

2018-09-25 10:24:59 289

原创 Spark--RDD持久化

相信大家都知道的一个常识，在计算机的硬件中能够进行存储的就是内存和硬盘两个硬件，但是同样的，大家也很清楚，在同样的数据处理的读写过程中，硬盘和内存的运行效率差距是非常大的，而内存作为硬盘和cpu进行数据交换的中转站，属于临时存储器，虽然通过快速的数据传输速度弥补了硬盘容量大但是传送速度慢的特点，所以当计算在内存上进行会比磁盘上进行要快很多。相信开车的朋友都知道，同样性能的车，在比较堵的城市道路...

2018-09-17 11:27:14 261

原创 spark--基础简介

因为工作需要，再整理spark基础的相关知识，所以在这里进行部分自己想法的整理，大家一起讨论、交流首先是对于spark API的介绍，在saprk的官方网站的定义里面，对于spark的API的解释是可以支持Java、scala、python以及R语言四种在当今程序员世界中排名相当靠前的语言，那么，这四种语言有什么区别呢？因为spark是使用scala和java联合编写的，所以基于JVM编程的j...

2018-09-12 13:39:02 408

原创 spark--资源调度

在上一个博客里，我们将一辆汽车的油箱、发动机进行了大体的说明了，汽车的最主要的功能已经说明了，那么想让汽车发动起来，我们应该怎么办呢？对，司机，我们现在还缺一个司机来使用这些资源，那么这些资源是如何使用的呢？在我们刚开始的时候，我对spark进行相应的简介的时候说过一个词，也在后面对这个词进行了具体的讲解，他就是RDD--分布式弹性数据集，它通过将计算数据持久化到内存中进行存储，提高了集群的运...

2018-09-06 17:24:27 327 1

原创分布式存储和分布式计算的结合

再介绍了之前的hadoop以及spark的相关组件之后，就像一辆汽车一样，只有将所有的组件进行组装之后他才可以正常的上路，在公路上疾驶，今天我们就将之前的组件进行一个简单的安装首先是油箱--分布式存储在当今社会，数据量越来越大，就像女孩子看电视剧一样，我把你喜欢的电视剧、电影等等的视频资源全给你，一共10PB，只有一次的存储机会，那我们应该怎么存储呢？赵本山说过把一只大象存入冰箱一共需要三...

2018-09-03 09:41:27 705

原创 spark--运行流程

就像在一家公司里面总有明确的分工，每一哥部分负责自己的那一部分的任务，大家一起来维持公司的正常运转，同样的，spark就像是一个公司，他的里面也有许许多多的角色组成Spark术语解释：Master：资源管理的主节点，通过管理各个worker来管理集群中的资源Worker，master的从节点，与master一起管理集群的资源Application：用户所写的应用程序，就像spark...

2018-08-27 09:49:14 270

原创 spark===RDD

在spark的简介中我们已经说过了，为了让spark的处理速度加快，其中有一个解决办法就是引入了一个分布式的弹性数据集--RDD那什么是RDD：RDD(Resilient Distributed Dataset）弹性数据集，是spark中的最基本的数据抽象，虽然说RDD是一个数据集，但是，它不存储数据，他表示的是一个不可变的，可分区的元素并行计算的集合，允许用户在执行多个查询时将工作缓存到内存...

2018-08-21 11:36:45 334

原创大数据--Spark简介

在刚接触大数据的时候，我们主要接受的是关于hadoop的相关知识，虽然比较浅显，但是基本介绍了hadoop每一个过程或者组建的运行的原理以及架构，包括优缺点以及他的使用场景，例如hdfs、mapreduce、zookeeper以及hive、hbase等，但是，在这之后，为了满足大数据的增长需求以及更好的对数据进行处理得到数据中的有用信息，很多的时间场景下，Hadoop的计算速度以及模式已经不能完全...

2018-08-21 09:19:42 2541

原创 Hadoop（6）--zookeeper

Zookeeper每一个专业的技术总可以在生活中找到相应的实例，就比如说zookeeper，攘其外必先安其内就很好的解释了zookeeper，Hadoop集群的组件中的很多在学习的时候都会觉得每一个都不稳定，都会出现这样那样的问题，会常常听到的一个词语就是高可用，在zookeeper的官方定义的时候在集群出现故障到解决故障正常执行的间隔时间小于200ms，在我们看来就是整个集群一直可用的错觉...

2018-08-15 13:38:19 179

原创 Hadoop（5）--hive

在Hadoop的存储处理方面提供了两种不同的机制，一种是之前介绍过的Hbase，另外一种就是Hive，有关于Hbase，它是一种nosql数据库的一种，是一种数据库，基于分布式的列式存储，适合海量数据的操作，，底层依赖HDFS，与rdbms的区别和其他的nosql基本类似，例如不支持sql语句对于数据进行操作，具体的关于Hbase的细节可以去参考我的上一篇博客，今天我们会通过hive和Hbase的...

2018-08-14 11:15:54 224

原创 Hadoop（4）--HBase

Hadoop其它组成角色介绍--Hbase在阿帕奇的官方网站上，对于HBASE的定义是他是Hadoop的的第一个分布式，可扩展的大数据存储的数据库，他的目标是将非常大的表托管到一个集群中进行相应的存储，区别于的MySQL等数据库，它是一个非关系型数据库，但是不支持的SQL语句的编写HBase的的架构（RPC：通过一种网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议）客...

2018-08-13 09:39:53 223

原创 HADOOP(3)--YARN

在了解了hfds的底层执行之后，也知道它存在的一些问题，第一单点故障，第二内存的硬件限制，最后就是mapreduce 的计算机制造成了资源的空闲浪费。，对于以上存在的问题，虽然mapreduce是一个很好的大数据处理的计算框架，但是，为了追求最好的运行效率，当遇到特别巨大的运算等特殊情况时所可以得到的最好的处理结果，Hadoop在MapReduce的基础上加以改进提出了yarn集群的管理概念Y...

2018-08-10 11:56:15 184

原创 MapReduce详解

在了解了Hadoop的组建以及底层框架之后我们知道，Hadoop的底层是通过HDFS进行数据的存储，将数据存储到集群中然后调用其中的数据进行相应的计算，那么问题来了，谁来进行计算的操作呢？这个就是Hadoop的另外一个底层框架，也就是MapReduce，他在集群的作用就是负责进行数据的处理过程为什么要使用mapreduce呢？因为mapreduce的核心是将用户编写的业务逻辑代码和自带的默认组...

2018-08-09 15:27:18 179

原创 Hadoop（2）--HDFS

Hadoop底层封装的的是HDFS和MapReduce两种框架在Hdfs中采用的是主从结构（Madter-slaver）就像领导和员工一样，领导负责整个公司的管理工作，而员工就负责向领导汇报工作以及完成领导分发的任务在HDFS中，NameNode（Master）就负责对整个集群中节点的管理以及维护文件系统树以及文件目录。而DataNode分布在不同的机架上，就像是员工分布在公司别的不同部门...

2018-08-08 11:05:48 322

原创 Hadoop核心架构（1）

在大数据的发展过程中，出现了一批专门应用与大数据的处理分析工具，如Hadoop，Hbase，Hive，Spark等，我们先从最基础的Hadoop开始进行介绍Hadoop是apache基金会下所开发的分布式基础架构，实现了一个分布式文件系统（HDFS），HDFS拥有高容错性、高可靠性、高扩展性、高效性、低成本的特性，可以让用户在不了解相关的底层源码的情况下，在廉价的机器上搭配一台完整的服务器进行...

2018-08-07 10:37:02 773

原创初识大数据

初识大数据：在计算机刚刚出世的时候，其目的帮助人们解决大型数据的计算量的问题，计算机将大型数据的计算能力提高了很多倍，解决了人们对于数据的处理能力的瓶颈，可是，随着社会信息化的发展，网络将人们的生活提升到一个更加快速的级别，尤其产生的问题就是人们在日常生活中产生的信息数据越来越多，现有计算机设备的能力很难处理这些数据，或者能处理但是需要非常长的处理时间，而在这个信息化社会，时间就是金钱，过长的...

2018-08-06 10:06:32 258

原创 Redis3.2.1分布式集群搭建（非单机版本）

机器分布：192.168.2.111~192.168.2.113 在每台机器上分别启动7001和7002端口，操作如下： 1、Redis3.2.1下载 http://download.redis.io/releases/redis-3.2.1.tar.gz 2、解压：tar -zxf redis-3.2.1.tar.gz 3、安装 make -> make install 4、修改配

2016-07-22 10:33:09 460

转载 Java 中的高阶函数

Java 中的匿名类，事实上可以理解成一个较笨重的闭包(可执行单元)，我们可以通过 Java 的匿名类来实现上述的 map 操作，首先，我们需要一个对函数的抽象：interface Function{ int execute(int x); } 问题我们假设 Function 接口中有一个方法 execute，接受一个整型参数，返回一个整型参数，然后我们在类 List 中，实现 map

2016-07-19 10:10:12 1442

原创 Spark Streaming生成RDD并执行Spark Job源码内幕解密

在spark streaming程序执行之前会先执行一个spark core job，然后才是执行spark streaming job，spark core job执行的作用是：让spark调度系统启动相关的类，预分配资源，启动相关的executor。 Spark Streaming可以动态的资源分配，同时可以写多线程并发提交执行job源码解析过程：1、首先看的是streamingco

2016-07-19 09:41:36 893

原创 Spark高可用HA实战

zookeeper可以做让所有机器的状态同步或者做集群的全局配置 Spark高可用HA实战 active挂掉后集群切换流程：当集群的master的active挂掉之后，zookeeper会在standby的master中通过选举机制选择一台standby机器作为leader，通过读取zookeeper中的元数据信息，恢复整个集群的状态，成功恢复之后才能作为整个集群的master（acti

2016-07-08 09:49:44 1323

原创 Driver在Cluster模式下的启动、两种不同的资源调度方式源码彻底解析、资源调度内幕总结

1、资源调度的方法：schedule()private def schedule(): Unit = { if (state != RecoveryState.ALIVE) { return }//判断Master的状态，只有在ALIVE的状态下才能够对应用程序调度资源 // Drivers take strict precedence over executors Driver的启动优先于E

2016-07-08 09:47:52 539

原创 JAVA中堆和栈的区别

在函数中定义的一些基本类型的变量和对象的引用变量都在函数的栈内存中分配。当在一段代码块定义一个变量时，Java就在栈中为这个变量分配内存空间，当超过变量的作用域后，Java会自动释放掉为该变量所分配的内存空间，该内存空间可以立即被另作他用。堆内存用来存放由new创建的对象和数组。在堆中分配的内存，由Java虚拟机的自动垃圾回收器来管理。在堆中产生了一个数组或对象后，还可以在

2016-07-06 09:44:44 259

LV_ZFG的博客