自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 大数据之kafka相关面试题

kafka中ISR,AR又代表什么?ISR:与leader保持同步的follower集合AR:分区的所有副本2. Kafka中的HW、LEO等分别代表什么?LEO:每个副本的最后条消息的offsetHW:一个分区中所有副本最小的offset3. Kafka中是怎么体现消息顺序性的?每个分区内,每条消息都有一个offset,故只能保证分区内有序4. Kafka中的分区器、序列化器、拦截器是否了解?它们之间的处理顺序是什么?拦截器:对数据的拦截和修改序列化器:在进行网络传输的过程中将数据序列

2021-03-30 21:10:46 122

原创 大数据技术之Kafka

Kafka 概述定义Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域.消息队列1.传统消息队列的应用场景使用消息队列的好处1)解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束2)可恢复性系统的一部分组件失效时,不会影响到整个系统.消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息任然可以在系统恢复后被处理3)缓冲有助于控制和优化数据流经过系统的速度,解决生产消息和消费消

2021-03-30 20:24:15 292 5

原创 大数据技术之Flume

概述Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集,聚合和传输的系统.Flume基于流式架构,灵活简单为什么选用FlumeFlume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS.Flume 基础架构AgentAgent是一个jvm进程,它以事件的形式将数据从源头送至目的地.Agent主要由三部分组成:Source Channel Sink.SourceSource是负责接受数据到Flume Agent的组件.可

2021-03-27 11:43:35 131

原创 大数据之Hive之函数

系统内置函数1.查看系统自带的函数show functions;2.显示自带的函数的用法desc function upper;3.详细显示自带的函数的用法desc function extended upper;常用内置函数1.空字符串赋值(1)函数说明nvl:给值为NULL的数据复制,格式:NVL(value,default_value)功能:如果value为NULL,则NVL函数返回default_value的值.否则返回value的值,如果两个参数都为NULL,则返回N

2021-03-23 19:22:55 368

原创 Hive之分区表和分桶表

分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多分区表二级分区动态分区调整关系型数据库中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive的动态分区,需要

2021-03-23 00:18:45 209

原创 大数据之Hive之DML(数据操作语言)

1.数据导入1.1load装载数据load data [local] inpath '数据的path' [overwrite] into table student [partition (partcol1=val1, ...)];-- 测试表create table student (id int,name string) row format delimited fields terminated by '\t';-- load 数据之追加数据 本地导入 是复制进去的load data

2021-03-23 00:06:15 165

原创 Hive命令

DDL(数据定义语言)库的ddl1.创建库的语法create databases [if not exists] database_name -- if not exists 增强代码的健壮性[comment database_comment] -- 库的注释 这个库你将来拿来干嘛[location hdfs_path] --可以指定当前库存在hdfs的具体位置[with dbpropert

2021-03-22 20:03:29 81

原创 大数据值Hive 命令操作

1.退出hive窗口exit;quit;新版hive中没区别.以前的版本有区别2.在hive

2021-03-22 18:20:30 205

原创 大数据技术之Hive概述

基本概念hive简介Hive:由facebook开源用于解决海量结构化日志的数据统计工具.Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能.Hive本质:将HQL转化为MapReduce程序(1)Hive处理的数据存储在HDFS(2)Hive分析数据底层的实现是MapReduce(3)执行程序运行在Yarn上Hive的优缺点优点(1)操作接口采用类SQL语法,提供快速开发的能力(简单,容易上手).(2)避免了去写MapReduc

2021-03-20 11:53:27 317

原创 Hadoop之MapReduce工作流程

MapReduce详细工作流程1MapReduce详细工作流程2

2021-03-18 16:20:54 51

原创 Hadoop之MapReduce之CombineTextInputFormat切片机制

框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下**1)**应用场景:CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理。2)虚拟存储切片最大值设置CombineTextInputFormat.setMaxInputSplitSize(jo

2021-03-18 15:50:43 98

原创 Hadoop之MapReduce框架原理

InputFormat数据输入MapReduce的数据流切片与MapTask并行度决定机制1)问题引入MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否越多越好呢?哪些因素影响了MapTask并行度?2)MapTask并行度决定机制数据块:Block是HDFS物理上把数据分成一块一块,数据块是HDFS存

2021-03-18 15:37:23 79

原创 Hadoop序列化

什么是序列化序列化就是把内存中的对象,转换成字节序列或(其他数据传输协议)以便于存储到磁盘(持久化)和网络化传输反序列化就是将收到的字节序列(或其它数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象为什么要序列化为什么不用java的序列化Hadoop序列化特点1)紧凑:高效使用存储空间2)快速:读写数据的额外开销小3)可扩展性:随着通信协议的升级而可升级4)互操作:支持多语言的交互...

2021-03-18 14:46:22 48

原创 Hadoop之MapReduce

概述定义MapReduce是一个分布式运算程序的编程框架,是用户开发"基于Hadoop的数据分析应用"的核心框架MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上优缺点优点1)MapReduce易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特点使得MapReduce编程变得非常流行

2021-03-18 14:37:15 119

原创 NameNode和SerondaryNameNode

NN和2NN工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。因此

2021-03-18 11:17:53 108

原创 HDFS读数据流程

HDFS读数据流程从HDFS往外拿1.客户端通过DistributedFileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址.2.挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据.3.DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)4.客户端以packet为单位接受,先在本地缓存,然后写入目标文件....

2021-03-18 10:43:11 81

原创 HDFS的数据流

HDFS写数据流程剖析文件写入1.客户端通过Distributed FileSystem模块向NameNode请求上传文件,NamNode检查目标未见是否已经存在,父目录是否存在.2.NameNode返回是否可以上传3.客户端请求第一个Block上传送到那几个DataNode服务器上4.NameNode返回三个DataNode节点,分别为dn1,dn2,dn35.客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通

2021-03-18 10:28:51 62

原创 HDFS

HDFS文件块大小HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定默认大小在Hadoop2.x版本中是128M,老版本中是64M.为什么块的大小不能设置的太小,也不能设置的太大?HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间,导致程序在处理这块数据时,会非常慢总结:HDFS块的大小设置主要取决于磁盘传输速率HDFS的shell操作基本语

2021-03-18 10:00:37 119

原创 HDFS

HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色.HDFS的使用场景适合一次写入,多次读出的场景,且不支持文件的修改,适合用来做数据Fenix,并不适合用来做网盘应用HDFS 的优缺点优点高容错性(1)数据自动保存多个副本,通过增加副本的形式,提高容错性(2)某一个副本丢失以后,他可以自动恢复2)适合处理大数据(1)数据

2021-03-18 00:02:41 111

原创 Hadoop之Yarm资源调度器

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序相当于操作系统之上的应用程序.Yarn的基本架构YARN 主要是由ResourceManager,NodeManager,ApplicationMaster和Container等组件构成1)**ResourceMabager(RM)**主要作用如下:(1) 处理客户端请求(2) 监控NodeManager(3) 启动或监控ApplicationMaster(4) 资源的

2021-03-16 20:59:35 936

原创 Hadoop的组成架构

HDFS 架构概述1)NameNode(nn) : 存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的快列表和快所在的DataNode等2)DataNode(dn) :在本地文件系统存储文件块数据,以及块数据的校验3)SecondaryNameNode(2nn):=每隔一段时间对NameNode元数据备份YARM架构概述1)**ResourceMabager(RM)**主要作用如下:(1) 处理客户端请求(2) 监控NodeManager(3)

2021-03-16 19:37:35 463

原创 Hadoop的概述

HadoopHadoop是什么(1) Hadoop 是一个有Apache基金会所开发的分布式系统基础架构(2)主要解决,海量数据的存储和海量数据的分析计算问题(3)广义上来说,Hadoop通常是指一个更广泛的概念–Hadoop生态圈Hadoop三大发行版本Apache Cloudera HortonworksHadoop的优势高可靠性: Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失高扩展性: 在集群间分布任务数据,可方便的扩展

2021-03-16 19:09:36 73 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除