Hadoop
Hadoop的学习,包括Hadoop生态圈、Hbase非关系型数据库、MapReduce原理及代码实现等
绿萝蔓蔓绕枝生
这个作者很懒,什么都没留下…
展开
-
CDH开启高可用后,NameNode主备节点切换
CDH开启HDFS高可用后,由于NameNode活动、备用状态引起的HDFS无法正常使用解决办法原创 2022-06-06 14:05:49 · 1001 阅读 · 1 评论 -
修改HDFS文件所有者
修改HDFS文件所有者sudo -u hdfs hadoop fs -chown root /...原创 2021-11-25 11:15:58 · 2481 阅读 · 0 评论 -
HDFS读写流程详细解读
HDFS读文件流程:读取文件过程简述:1、客户端向NameNode发起读数据请求;2、NameNode响应请求并告诉客户端要读的文件的数据块位置(存在哪个DataNode上);3、客户端到对应DataNode读取数据,当数据读取到达末端,关闭与这个DataNode的连接,并查找下一个数据块,直到文件数据全部读完;4、最后关闭输出流。读取文件过程详细解读:1、客户端调用FileSystem 实例的open 方法,获得这个文件对应的输入流InputStream。2、通过RPC 远程调用Name原创 2020-12-09 14:17:20 · 400 阅读 · 0 评论 -
分布式资源管理框架Yarn的工作机制(执行流程)
Yarn工作机制流程图Yarn工作机制详细介绍1.客户端提交作业,申请jobID(提交给ResourceManager中的Application Master(用于处理客户端的请求))2.ResourceManager返回一个作业ID,并将HDFS路径返回给客户端3.客户端将运行作业所需要的资源(Jar包、配置信息、分片信息等)上传到返回的HDFS路径4.客户端在次向ResourceManager发送请求,执行作业5.将请求转发到调度器(ResourceScheduler)原创 2020-12-07 20:12:33 · 258 阅读 · 0 评论 -
Sqoop数据迁移
Sqoop数据迁移1、什么是Sqoop2、Sqoop数据迁移2.1、从mysql导入数据到 HDFS2.2、从mysql导入数据到Hive2.3、从mysql导入数据到HBase2.4、导出HDFS数据到MySQL1、什么是SqoopSqoop是一个用于在Hadoop和关系数据库之间传输数据的工具将数据从RDBMS(关系型数据库)导入到HDFSHDFS、Hive、HBase从HDFS导出数据到RDBMS使用MapReduce导入和导出数据,提供并行操作和容错2、Sqoop数据迁移2原创 2020-09-29 19:22:30 · 238 阅读 · 1 评论 -
分布式资源调度框架YARN
YARN概述1、Hadoop2.x中对数据的处理和资源调度主要依赖MapReduce完成,只能运行MapReduce程序,JobTracker负责资源管理和程序调度,压力较大;2、于是在Hadoop2.x版本引入YARN用于管理资源3、YARN(Yet Another Resource Negotiator)核心思想是将资源管理和任务的监控和调度分离;主要负责集群资源管理;4、通用的资源管理系统,可为不同的应用提供统一的资源管理和调度;YARN的基本架构核心组件1、YARN的架构是master/原创 2020-09-15 15:44:49 · 357 阅读 · 0 评论 -
分布式应用协调服务ZooKeeper
ZooKeeper简介Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目Zookeeper=文件系统+通知机制Zookeeper从设计模式上来看是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理数据,然后接受观察者的注册一旦数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似Master/Slave管理模式ZooKeeper数据结构(1)znodeZooKeeper数据模型原创 2020-09-15 15:09:36 · 132 阅读 · 0 评论 -
超详细的MapReduce实现过程图文详解以及代码实现
MapReduce执行过程详解图编程实现MapReduce执行过程现在Map端实现两张表的关联,将两张表的部分数据合并成一张表;现有部门信息DEP.txt文件和员工信息EMP.txt文件,其内容如下:DEP.txt: # EMP.txt: #1,Sales # zhang,male,20,12,Dev # li,female,25,23,Mgt3 # wang,female,30,3 # zhou,male,35,2DEP.txt中第一原创 2020-09-11 21:13:45 · 2218 阅读 · 0 评论 -
MapReduce 实现 WordCount
Java操作Hadoop1、Windows安装并配置Hadoop;详情请见【Windows安装并配置Hadoop】2、打开IDEA创建一个maven项目3、填好GroupId(包名)、ArtifactId(项目名)4、选择maven安装路径、maven中sittings.xml文件路径5、创建完成即可创建相应的Java类MapReduce 实现 WordCount在实现java操作Hadoop之前需要先下载maven依赖包 ;在pom.xml文件中配置依赖项,IDEA会自动下载;Ma原创 2020-09-10 23:18:08 · 1071 阅读 · 0 评论 -
浅谈MapReduce的原理及编程
一、什么是MapReduceMapReduce是一个分布式计算框架;它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务;适用于大规模数据处理场景;每个节点处理存储在该节点的数据;每个 job 包含Map和Reduce两部分二、MapReduce的设计思想1、分而治之简化并行计算的编程模型2、构建抽象模型开发人员专注于实现 Mapper 和 Reduce 函数3、隐藏系统层细节开发人员专注于业务逻辑实现MapReduce特点1、优点易于编程可扩展性高容错性原创 2020-09-10 19:06:07 · 532 阅读 · 0 评论 -
大数据概况及Hadoop生态圈
一、什么是大数据大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据的四大特点:Volume(数据量大):数据量庞大Velocity(速度快):数据增长快,时效性高Variety(多样化):数据种类和来源多样化Value(密度低):有价值数据密度低,需挖掘获取数据价值分布式计算分布式计算是指将较大的数据分成较小的数据分发到多台机器上处理,多台机器处理完成后再发送给主机汇总,分布式计算大大提高了计算效率传统分布式计算与新分布式计算的区别比较项原创 2020-09-09 19:48:40 · 349 阅读 · 0 评论 -
Hadoop常用命令集合
1、mkdir创建文件夹;使用方法hadoop fs -mkdir /path #创建单个文件夹hadoop fs -mkdir -p /path #递归创建多个文件夹2、ls、lsr查看文件或文件夹信息;使用方法hadoop fs -ls /pathhadoop fs -lsr /path #递归查看文件或文件夹信息3、 mv将文件从源路径移动到目标路径。这个命令允许有多个源路径,此时目标路径必须是一个目录。不允许在不同的文件系统间移动文件。使用方法hadoo原创 2020-09-04 17:27:40 · 1852 阅读 · 0 评论