自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Hive基本概念

Hive基本概念简介什么是 HiveHive的特点Hive架构基本组成Hive使用方式第一种交互方式:Hive交互shell第二种交互方式:Hive JDBC服务第三种交互方式:Hive命令Hive基本操作创建数据库修改数据库查看数据库信息删除数据库创建数据库表简介什么是 HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解

2020-09-26 23:05:31 110

原创 数据仓库

数据仓库基本概念主要特征面向主题集成性非易失性(不可更新性)时变性数据仓库与数据库区别数据仓库分层架构数据仓库元数据管理基本概念数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用。主要特征数据仓库是面向主题的(Subject-Oriented )、集成的(Integrated)、非易失的(Non-Volat

2020-09-24 21:33:06 315

原创 Yarn资源调度

Yarn资源调度简介主要组件介绍与作用主要组件主要组件的作用yarn当中的调度器yarn当中的调度器介绍第一种调度器:FIFO Scheduler (队列调度器)第二种调度器:capacity scheduler(容量调度器,apache版本默认使用的调度器)第三种调度器:Fair Scheduler(公平调度器,CDH版本的hadoop默认使用的调度器)关于yarn常用参数设置简介yarn是hadoop集群当中的资源管理系统模块,管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存)以

2020-09-23 22:19:00 213

原创 mapreduce合并小文件

mapreduce合并小文件分析实现自定义InputFromat自定义RecordReader定义mapreduce处理流程分析小文件的优化无非以下几种方式:在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并在mapreduce处理时,可采用combineInputFormat提高效率实现本节实现的是上述第二种方式程序的核心机制:自定义一个InputFormat改写RecordReader,实现一次读取

2020-09-22 21:35:06 532

原创 MapReduce运行机制

MapReduce运行机制MapTask运行机制详解以及Map任务的并行度详细步骤:ReduceTask 工作机制以及reduceTask的并行度详细步骤:MapReduceshuffle过程MapTask运行机制详解以及Map任务的并行度整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默

2020-09-17 19:20:12 109

原创 分布式计算框架MapReduce

分布式计算框架MapReduceMapReduce入门MapReduce思想Hadoop MapReduce设计构思MapReduce框架结构MapReduce编程规范MapReduce增强MapReduce的分区与reduceTask的数量MapReduce排序以及序列化3、 MapReduce当中的计数器MapReduce的combinerMapReduce入门MapReduce思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用

2020-09-16 19:48:47 228

原创 HDFS的API操作

这里写目录标题使用文件系统方式访问数据获取FileSystem的几种方式递归遍历文件系统当中的所有文件下载文件到本地hdfs上创建文件夹hdfs文件上传HDFS的小文件合并使用文件系统方式访问数据在 java 中操作 HDFS,主要涉及以下 Class:Configuration:该类的对象封转了客户端或者服务器的配置; FileSystem:该类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作,通过 FileSystem 的静态方法 get 获得该对象。FileSystem f

2020-09-15 21:58:28 268

原创 分布式文件系统HDFS

分布式文件系统HDFSHDFS分布式文件系统设计目标HDFS的架构图之基础架构hdfs的架构之文件的文件副本机制以及block块存储抽象成数据块的好处块缓存HDFS的元数据信息FSimage以及edits和secondaryNN的FSImage与edits详解FSimage文件当中的文件信息查看edits当中的文件信息查看secondarynameNode如何辅助管理FSImage与Edits文件HDFS的文件写入过程HDFS的文件读取过程HDFS分布式文件系统设计目标硬件错误 由于集群很多时候由数

2020-09-14 21:17:12 165

原创 HDFS的命令行使用

HDFS的命令行使用hdfs的特性:HDFS的命令行使用基本命令高级命令文件数量的限额清除文件数量限制空间大小的限额清除空间大小的限额hadoop的基准测试测试写入速度测试读取速度清除测试数据hdfs的特性:master/slave架构 :主从架构namenode:主节点,主要用于存储元数据,处理用户的请求datanode:从节点,主要用于存储数据,说白了就是出磁盘的分块存储:把一个大的文件,化成一个个的小的block块,在hadoop2当中一个block块默认是128M的大小100台机器,每

2020-09-13 20:14:03 142

原创 CDH版本的zookeeper环境搭建

这里写目录标题下载,解压修改配置文件启动zk服务下载,解压下载地址为:http://archive.cloudera.com/cdh5/cdh/5/修改配置文件node01修改配置文件创建zk数据存放目录mkdir -p /export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatas修改zk配置文件cd /export/servers/zookeeper-3.4.5-cdh5.14.0/conf cp zoo_sample.cfg zoo

2020-09-12 20:54:34 589

原创 hadoop的架构模型

hadoop的架构模型1.x的版本架构模型介绍2.x的版本架构模型介绍第一种:NameNode与ResourceManager单节点架构模型第二种:NameNode单节点与ResourceManager高可用架构模型第三种:NameNode高可用与ResourceManager单节点架构模型第四种:NameNode与ResourceManager高可用架构模型apache版本的hadoop三种运行环境的介绍standAlone环境搭建hadoop 的六个配置文件的作用1.x的版本架构模型介绍文件系统

2020-09-11 19:39:14 447

原创 zookeeper的介绍及集群环境搭建

zookeeper的介绍及集群环境搭建zookeeper概述架构特性节点创建节点读取节点更新节点删除节点watch机制特点zookeeper概述一个分布式的协调框架,主要用于协调辅助其他框架正常运行,主要为了解决应用系统当中的一致性问题。zk本质上是一个分布式的小文件存储系统,zk上面的每个文件内容最好不要超过1m。架构主从架构:主节点是分配任务的节点,一般是一个或两个,也可以是很多个。从节点是执行任务的节点,主要就是执行主节点分配的任务。主备架构:解决主节点单一故障的问题主节点(Leade

2020-09-09 20:29:29 220

原创 linux的 shell编程

linux的 shell编程基本格式运行的两种方式shell变量定义使用类型参数传递运算判断语句if 判断for循环while循环case语法函数函数参数Shell 是一个用C 语言编写的程序,通过Shell用户可以访问操作系统内核服务。它类似于DOS 下的 command 和后来的 cmd.exe 。Shell即是一种命令语言,又是一种程序设计语言。linux 的Shell 种类众多,可以通过 cat ./etc shells 查看系统中安装的shell。Bash 由于易用和免费,在日常工作中被广

2020-09-08 17:41:04 324

原创 linux基础增强

linux基础增强查找命令grep命令find 命令locate命令whereis 命令which 命令用户与用户组root用户和普通用户区别用户组su 与 sudosu的使用sudo的使用linux的系统服务网络管理ip 地址配置更改ip地址与mac地址域名的映射网络端口的监听查找命令grep命令grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的打印出来。格式:grep [option] pattern [file]使用实例:查找指定 ssh 服务进程。ps

2020-09-07 22:53:56 369

原创 linux基础-基本命令(下)

文件权限文件类型文件权限文件类型常见的三种类型:文件-目录d连接l文件权限

2020-09-06 18:19:52 257 1

原创 Maven基础(上)

Maven基础Maven概述Maven的仓库Maven的坐标配置阿里云仓库Maven常用命令Maven概述Maven 是用来管理 java项目,依赖管理,项目构建的工具。Maven作用:依赖管理项目构建工程分模块构建Maven的仓库仓库名作用本地仓库相当于缓存,工程第一次会从远程仓库下载jar包,将jar包存在本地仓库,第二次先在本地仓库寻找,找不到再去远程仓库下载中央仓库就是远程仓库,仓库中jar由专业团队统一维护,地址是:http://repo1.mav

2020-09-03 22:16:15 83

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除