自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

草莓猿

喜欢笑

  • 博客(28)
  • 收藏
  • 关注

转载 Zookeeper的选举机制

一、前言  前面学习了Zookeeper服务端的相关细节,其中对于集群启动而言,很重...

2019-08-09 09:47:53 224

原创 Kafka的进化

Kafka 从首次发布之日起,已经走过了七个年头。从最开始的大规模消息系统,发展成为功能完善的分布式流式处理平台,用于发布和订阅、存储及实时地处理大规模流数据。来自世界各地...

2019-08-06 11:53:14 141

原创 Scala的基本类型

Hello在 scala 中有一个根类型 Any ,他是所有类的父类.scala中一切皆为对象,分为两大类AnyVal(值类型),AnyRef(引用类型),他们都是Any子类.Null 类型是 scalaNull 类型是 scala的特别类型,它只有一个值 null, 他是 bottom calss ,是 所有 AnyRef 类型的子 类.Nothing类型也是bottomclass,他是...

2019-07-29 20:39:56 274

转载 Flume的基础原理

Flume(一)Flume原理解析 阅读目录(Content)一、Flume简介二、Flume特点三、Flume的一些核心概念3.1、Agent结构  3.2、source3.3、Channel3.4、Sink四、Flume拦截器、数据流以及可靠性4.1、Flume拦截器4.2、Flume数据流4.3、Flume可靠性五、Flume使用场景5....

2019-07-22 21:17:57 161

原创 负载均衡

http://itsoul.iteye.com/blog/777212https://www.cnblogs.com/aspirant/p/5697807.html 1、Linux集群主要分成三大类( 高可用集群, 负载均衡集群,科学计算集群) 集群是一个统称,他分为好几种,如高性能科学群集、负载均衡群集、高可用性群集等。 科学群集 、高性能集群(High...

2019-07-20 07:52:54 96

转载 Spark的认识与理解

...

2019-07-19 21:21:26 1325

原创 DAG作为大数据引擎的优点

TL;DR - Conceptually DAG model is a strict generalization of MapReduce model. DAG-based systems like Spark and Tez that are aware of the whole DAG of operations can do better global optimizations than...

2019-07-19 21:13:29 669

原创 Hive on Spark遇到的问题总结

装了一个多星期的hive on spark 遇到了许多坑。还是写一篇随笔,免得以后自己忘记了。同事也给我一样苦逼的人参考。先说明一下,这里说的Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是MapReduce,和Hive on Tez的道理一样。先看官网的资源Hive on Spark: Getting Started要想在Hive中使用Spark执行引...

2019-07-18 08:56:50 2751

原创 Spark三种部署方式

目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一...

2019-07-18 07:25:10 2150

原创 Spark精选面试题(笔试部分)

. Spark 的四大组件下面哪个不是 (D )A.Spark Streaming B MlibC Graphx D Spark R2.下面哪个端口不是 spark 自带服务的端口 (C )A.8080 B.4040 C.8090 D.180803.spark 1.4 版本的最大变化 (B )A spark sql Release 版本 B 引入 Spark RC DataFrame...

2019-07-16 09:22:29 1668

原创 Scala中方法与函数的差别

相信大家在初学一段时间Scala后,会突然发现自己学起来懵懵的,特别是在之前有过java的功底基础之上,学起来感觉不是特别的容易…或许会对某一个特定的知识点迷惑,首先这是一个很正常的现象,大家不要去慌张和无奈,要学会去归纳和总结!找到一个属于自己的方法!举个栗子找了两个比较简单的来给大家讲解一下:1. 首先我第一个定义的是一个函数,我在定义的时候我用了值来接收,但是对于方法不能返回一个值,...

2019-07-09 20:48:35 72

原创 Scala学习之路──环境的搭建与入门使用(一)

文章目录前言1. 为什么要学习scala语言?1.1 集齐其它语言的有点,化繁从简.1.2 如果你想学习线计算,spark底层是用scala来 ,要想学好spark 我们就必须会scala这门语言1.3 scala语言有自己的优势无论是在编程的效率还是执行速度2.scala语言环境的搭建2.1具备java的开发环境2.1.1环境变量的准备2.2 idea集成开发软件2.3 idea插件的安装...

2019-07-05 15:43:43 190

原创 聊一聊Hive开发时遇到的bug

文章目录前言1.Hive的连接idea创建表启动hive遇到的问题hive的文件存储格式前言相信各位在刚入门的时候学习基础知识的时候,都有过一段比较迷茫是时期…我觉得学习上迷茫一段时间是好事,它可以警醒自己,让自己有一个透彻的觉悟。同时也可以鞭策自己,在自己在未来的路上,成长可期…1.Hive的连接idea创建表1.1创建表驱动信息加载驱动建立连接注意事项:1 hive2...

2019-06-22 08:05:07 678

原创 Hadoop生态圈(八)──Hive分区和分桶

Hive的分区首先我们谈及分区的时候,对于分区我们完全可以引入一个话题…大家每逢节假日的时候,都会去选择购物,那么在我们购物的时候(逛超市的时候)都会看见物品的分门别类,也许一进门你可以看见第一个货架上全是饮料。当我们走到第二个货架的时候,你也许会看见红酒专区…这是在我们日常生活当中看见的分区的概念…而在我们的hive的分区当中我们可以理解为一个个的文件夹,而你的分区是文件夹下的目录。你优先创建...

2019-06-20 22:05:08 1240 1

原创 Hadoop生态圈(七)──Hive的认识的安装

文章目录为什么要使用Hive(优点)Hive工作原理前言Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce ...

2019-06-19 14:58:16 383 1

原创 Hadoop生态圈(六)──Zookeeper的安装与应用

前言思想核心拜占庭将军问题是一个共识问题: 首先由Leslie Lamport与另外两人在1982年提出,被称为The Byzantine Generals Problem或者Byzantine Failure。核心描述是军中可能有叛徒,却要保证进攻一致,由此引申到计算领域,发展成了一种容错理论。随着比特币的出现和兴起,这个著名问题又重入大众视野。 那么今天要给大家引入的是zookeeper分...

2019-06-18 22:01:06 195

转载 深入浅出:探讨Hadoo和Strom与Spark的异同

一、hadoop和Storm该选哪一个?为了区别hadoop和Storm,该部分将回答如下问题:1.hadoop、Storm各是什么运算2.Storm为什么被称之为流式计算系统3.hadoop适合什么场景,什么情况下使用hadoop4.什么是吞吐量首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比...

2019-06-17 14:32:08 179

原创 Hadoop生态圈(五)──Yarn入门学习

前言 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序一、回顾Hadoop生态圈家族成员 YARN本质上是新一代MapRduce2.0,突破了MapReduce框架的性能瓶颈。通过YARN管理集群的资源请求,Hadoop从一个单一应用程序系统升级成为一个多应用程序的操...

2019-06-15 23:05:39 585

原创 Hadoop生态圈(四) -- MapReduce的入门(一)

前言最近开始着手写MapReduce参考了很多博客,每个人对MapReduce的理解是不一样的,对于数据的理解是不一样的,但不乏让笔者觉得写的很通俗简明的博客,给各位找出很多写的很好的文章!!1.MapReduced的通俗理解2.MapReduce的原理初始还没有学习MapReduce之前觉得mapReduce是一个计算模型,那么他的表现形式就应该有一个input和output,而这个输...

2019-06-14 15:49:21 279

原创 Hadoop生态圈(三)──HDFS客户端搭建与应用

外部客户端的搭建早期我们在虚拟机搭建hadoop的开发环境的步骤已经暂且告一段落了,现在我们来开发客户端的搭建(感谢小毕同事的指导)1.客户端软件...

2019-06-13 14:45:40 362 1

原创 Hadoop生态圈(一) -- 搭建伪分布式集群(二)

搭建一个伪分布式集群.....1)上传安装包1.1搭建伪分布式集群首先准备一个健康的虚拟机环境…起码你的状态是可以运行的对嘛?下面是我的虚拟机最近工作需要,需要搭建一个集群,所以今天呢好好的来回顾一下,伪分布式集群的搭建,而我呢顺便回顾一下安装的步骤…废话不多说,直接上手吧!2)解压安装包2.1我们搭建的是伪分布式,需要用到的是<a href="www.ba...

2019-06-13 10:35:19 146

原创 Hadoop生态圈(二) -- 完全分布搭建

完全集群搭建首先上一篇博客已经有写到伪分布式搭建,伪分布式搭建是在一个集群当中主节点和SecondaryName放在一个节点上…1.配置多个节点的网络映射192.168.79.123 node01192.168.79.124 node02192.168.79.125 node03192.168.79.126 node04例如上面的几个节点,我们可以在主节点上完成节点的录入,传入数据...

2019-06-12 21:52:08 216

原创 Hadoop生态圈(一) -- 伪分布式集群搭建

集群搭建1.首先得有一个完整的虚拟机,目前作者使用的是Centos,企业大部分都在用这一款,当然你也可以用Ubntu… 网络状态良好1.上传文件至虚拟机1.上传文件的两种方式1.1我们可以使用xftp上传文件,xftp使用起来方便,直接进行文件的拖拽就可以完成文件的传输,传输的速度也是非常快的,but xftp是收费的网上也有一些密钥可以使用试用版本…1.2当然我们也可以使用命令进行...

2019-06-12 15:28:22 246

转载 Shell语言(While死循环)

原文在linux下编程的程序猿都知道shell脚本,就算你不怎么熟悉,也应该听过的吧!那在shell脚本中的死循环该怎么写呢?对于熟悉C语言的猿人们来说,最简单的死循环应该这样写:while(1){//do something}或者你也可以用for语句和do…while语句来实现,这里就不说了!可是怎么在shell脚本中写死循环呢?对于对shell不怎么熟悉的猿人来说,相信...

2019-06-12 09:14:58 8855

原创 SecondaryNamenode-----持久化

**前言**最近刚接触Hadoop,一直没弄明白NameNode和Secondary NameNode的关系。最初一开始以为Secondary NameNode是NameNode的备份,为了防止NameNode的单点失败的.但其实并不是这样的!场景模拟: 我们的计算机在工作的时候,突然出现宕机的情况?请问原来计算的任务是否会被保存?怎么回复到原来的状态,中间的保存的操作是如何完成的…让我们一...

2019-06-11 22:00:45 294 2

原创 赶上大数据的这班车!!!

开始什么是大数据? 什么是数据?为何称之为大数据?二十年前,我们生活在物质极具匮乏的时代,日常的生活没有抖音,没有游戏,更没有QQ,微信,Msn(及时通讯类app)....有人说,二十年前的社会的数据产物是当代的十分之一都不到,可想而知这个世界发展之快..我们现在所拥有的毫无疑问,它都是透明的... ...

2019-06-10 14:38:04 310 2

原创 shell的基础学习(二)

业精于勤荒于嬉 行成于思毁于随。**shell语言*SHELL语言是指UNIX操作系统的命令语言,同时又是该命令语言的解释程序的简称。SHELL作为语言来说,它既是终端上的用户与UNIX操作系统会话的语言,又可作为程序设计的语言,所以Shell是用户与系统之间的接口,而且是一种比较高级、易被用户理解和使用的程序设计语言,它为用户提供了使用方便、功能强、又容易扩充的程序设计环境。 (摘抄- ...

2019-06-10 09:43:11 145

转载 shell的简单使用(一)

Linux的初识程序员的功底不是在于你的脑子有满天飞的图纸上,而是体现在你所写的每一行代码上-------Mark缘由Linux 内核最初只是由芬兰人李纳斯·托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 UNIX 的多用户、多任务、支持多线程和多 CPU 的操作系统...

2019-06-09 22:48:37 868 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除