Hadoop
悟红尘
这个作者很懒,什么都没留下…
展开
-
MapReduce知识点一
文章目录MapReduce 优缺点MapReduce流程序列化MapReduce 并行处理改变切片的大小InputFormat分区CombinerMapReduce 优缺点MapReduce 分布式运算程序的编程框架优点:使分布式编程变得简单,高容错性,适合PB级以上的数据处理缺点: 不适合实时计算MapReduce流程客户端submit前,获取待处理的信息,根据配置生成任务规划,比如有多少个maptask等。客户端提交信息到yarn,提交的信息包括job的配置,jar包等。各个节点上启动原创 2020-07-07 16:09:19 · 342 阅读 · 0 评论 -
Hadoop-理解yarn
YARN 集群也分为Master/Slave架构,主要由ResourceManager,NodeManager, ApplicationMaster,Container等组成。ResourceManager 全局资源管理器,负责整个系统的资源管理分配和任务调度。ResourceManager包含Scheduler调度器和应用程序管理器Application mananger。调度器只是负责资源的分配,资源分配的单位是container,应用程序管理器负责管理整个系统中所有应用程序,包括应用程序提交、与原创 2020-06-19 09:41:32 · 185 阅读 · 0 评论 -
Hadoop之HDFS
HDFS 全称 Hadoop Distributed File System - Hadoop分布式文件系统,是Hadoop项目的核心子项目,对海量数据进行进行存储与管理HDFS存储块为128M现在HDFS的block的默认大小为128M。 寻址时间指的是在HDFS中,找到目标block的时间。如果block越大,寻址时间就越短,因为NameNode中存储的元数据就越少,但是明显传输时间会就变大,反之,寻址时间就越长。通常MapReduce中每一个任务只会处理一个块,如果block太大也会影响任务的原创 2020-06-18 09:26:19 · 231 阅读 · 0 评论 -
ElasticSearch安装详解及采坑
ElasticSearch是一个分布式的,高性能,高可用的,可伸缩的搜索和分析系统(1)可以作为大型分布式集群(数百台服务器)技术,处理PB级的数据,服务大公司;也可以运行在单机上服务于小公司(2)Elasticsearch不是什么新技术,主要是将全文检索、数据分析以及分布式技术,合并在了一起,才形成了独一无二的ES:lucene(全文检索),商用的数据分析软件,分布式数据库(3)对用户而言...原创 2020-04-02 07:37:25 · 673 阅读 · 0 评论 -
MapReduce之Shuffle,自定义对象,排序已经Combiner
1. Shuffle:MapReduce的计算模型主要分为三个阶段,Map, shuffle, Reduce。 Map负责数据的过滤,将文件中的数据转化为键值对,Reduce负责合并将具有相同的键的值进行处理合并然后输出到HDFS。 为了让Reduce可以并行处理map的结果,必须对Map的输出进行一定的排序和分割,然后交个Reduce,这个过程就是Shuffle。官方给的图如下:上图Ma...原创 2019-04-25 23:14:09 · 279 阅读 · 0 评论 -
Hadoop-RPC机制
一. RPC 概念RPC(Remote Procedure Call) 即远程调用过程。它允许一个计算机的程序远程调用另外一个计算机的子程序,而不用去关心底层的网络细节,对于我们使用者来说是透明的,所以他常用于分布式中。RPC采用的是Client/Server(客户端/服务器)模式 ,Hadoop引入了RPC框架,客户端和NameNode,DateNode和NameNode,DataNode...原创 2019-04-11 23:51:51 · 207 阅读 · 0 评论 -
Hadoop之SecondaryNameNode
一 、SecondaryNameNode的作用SecondaryNameNode的作用是合并fsimage和edits文件。NameNode的存储目录树的信息,而目录树的信息则存放在fsimage文件中,当NameNode启动的时候会首先读取整个fsimage文件,将信息装载到内存中。Edits文件存储日志信息,在NameNode上所有对目录的操作,增加,删除,修改等都会保存到edits文件...原创 2019-04-01 22:53:53 · 993 阅读 · 0 评论 -
hadoop-操作命令,上传下载文件的实现及原理
hdfs dfs 命令常用命令:-moveFromLocal 直接给从本地剪切了-getmerge 把HDFS的目录下的文件先合并在下载-balancer 手动平衡dataNode的数据-appebdToFile 文件追加数据-cat 查看文件内容-chagrp 修改所属的组-chown 修改文件权限-du 列出文件夹下的所有文件的大小必要的时候可以列出帮助文档:hdfs...原创 2019-04-03 23:35:45 · 2030 阅读 · 0 评论 -
Hive的架构与搭建
什么是HiveHive是Hadoop生态圈中的一个数据仓库工具,也可以是一个数据分析引擎。他没有提供数据存储功能,基于HDFS,数据存储在HDFS上。HIve可以将结构化的数据映射为一张表,提供HQL语句查询的功能,所以需要依赖一个外部的数据库,这个数据库中之存储表的元信息,不存储任何实际的数据,数据还是在HDFS上。 Hive的核心是把HQL语句翻译成MR程序交给Yarn集群来调用。hive...原创 2018-09-29 07:44:35 · 298 阅读 · 0 评论 -
Hadoop入门之MemCached缓存
简介Memcached是一个开源的,高性能的,内存分布式缓存系统。其用意是缓存结果,避免再次计算或者访问数据库,从而提高服务的效率。 Memcahced是基于内存的key-value存储,用来存储任意的小块的数据,包括序列化的对象,因为他是存储在内存中,所以访问快速,但是也决定了不可能存储太多的东西。因为他是分布式的所以可以在多台机器上配置,每一个server之间是不进行通讯的,所以不知道彼...原创 2018-08-09 23:17:21 · 195 阅读 · 0 评论 -
Hadoop入门之Flume
概要Flume是一个高可用的,分布式的实时的日志采集系统。 Flume分为三个组件,Ource组件,负责信息的采集,并将采集的信息发送诶Channel。Channel组件提供临时的存储,保存Source组件发送过来的信息,Sink负责读取Channel中临时存储的信息,保存到HDFS等,并删除Channel中的临时信息。 Source, Channel, Sink称为一个Agen。架构...原创 2018-07-22 22:13:21 · 368 阅读 · 0 评论 -
Hadoop入门 - Sqoop
概述Sqoop是一个开源工具,主要功能是用于在Hadoop与传统数据库库之间进行数据的传递,可以把传统的关系型数据库中的数据(比如Oracle,Mysql等数据库)导入到HDFS,也可以把HDFS中的数据导入到关系型数据库。为了练习Sqoop我们需要装一个数据库mysql或者Oracle,我机器上装的是Oracle,在装Oracle的时候手动选择上他创建orcl数据库,这样我的话我们就不用手...原创 2018-07-21 22:37:14 · 183 阅读 · 0 评论 -
Hadoop免密登录配置及其原理
在上一篇博客Hadoop的环境搭建中提到在启动Hadoop的过程中需要输入好多次密码,烦都烦死了,这篇文章中讨论下如何免密登录以及免密登录的原理。一、免登录配置1. 首先生成密钥:ssh-keygen -t rsa一路回车即可。一路回车之后就会生成一个目录:/root/.ssh 因为我是root用户所以在root目录下。.ssh是一个隐藏的目录,所有已点开头的都是隐藏目录,可以用命令看一下:2....原创 2018-07-02 18:23:49 · 7534 阅读 · 1 评论 -
Hadoop环境搭建
1. 首先 配置Java环境变量: 先将jdk包用FileZilla上传到linux系统 tar -xvf jdk-8u144-linux-x64.tar.gz -C ~/training/ tar 解压命令, x表示解压,v表示显示解压过程,f表示使用档案的名字 ~表示home目录, 表示解压到training目录 解压之后配置环境变量: 使用vi 打开 .bash_profil...原创 2018-06-25 18:10:05 · 220 阅读 · 0 评论