![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
hadoop生态圈
May--J--Oldhu
这个作者很懒,什么都没留下…
展开
-
Hadoop优化(MapReduce优化方法数据输入,map,reduce,数据倾斜进行调优)(八)
Hadoop优化一.MapReduce优化需要考虑的点1.计算机性能2.I/O操作优化二.MapReduce优化方法1.数据输入2.Map 阶段3.Reduce阶段4.数据倾斜问题5.常用的调优参数(1)资源相关参数(2)容错相关参数(mapreduce)一.MapReduce优化需要考虑的点MapReduce程序效率取决于以下几点:1.计算机性能CPU,内存,磁盘健康,网络2.I/O操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)map运行时间太长,导致reduce等待过原创 2020-12-11 13:56:01 · 274 阅读 · 0 评论 -
MapReduce详细工作流程解析
MapReduce工作流程一.流程示意图二.流程详解1.split阶段2.map阶段3.Shuffle阶段4.Reduce阶段5.注意三.各个阶段的工作机制1.InputFormat数据输入1.1FileInputFormat抽象类1.1.1FileInputFormat源码解析1.1.2FileInputFormat切片大小的参数配置1.1.3获取切片信息1.1.4总结1.2FileInputFormat实现类1.2.1TextInputFormat1.2.2KeyValueTextInputFormat原创 2020-12-10 18:57:54 · 7370 阅读 · 1 评论 -
HDFS支持的文件格式(SequenceFile,Avro,RCFile,Parquet)(七)
支持的文件格式一.支持的文件格式一.支持的文件格式SequenceFile 以二进制键值对的形式存储数据,支持三种记录存储方式。➢ 无压缩:io 效率较差,相比压缩,不压缩的情况下没有什么优势。➢ 记录级压缩:对每条记录都压缩,这种压缩效率比较一般。➢ 块级压缩:这里的块不同于 hdfs 中的块的概念.这种方式会将达到指定块大小的二进制数据压缩为一个块。Avro 将数据定义和数据一起存储在一条消息中,其中数据定义以 JSON 格式存储,数据以二进制格式存储。Avro 标记用于将大型数据集分割原创 2020-12-09 16:00:25 · 1683 阅读 · 0 评论 -
DataNode工作机制(心跳机制,掉线判断时限参数)(六)
DataNode工作机制数据节点。就是Slave,实际存储数据块的节点,Namenode下达命令,DataNode执行实际操作。1、存储管理用户的文件块数据2、定期向 namenode 汇报自身所持有的 block 信息(通过心跳信息上报) 一个数据块在DataNode上以文件形式存储在对应服务器的磁盘上。包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 DataNode 启动后向 NameNode 注册,通过后,周期性(1 小时)的原创 2020-12-09 15:30:31 · 1256 阅读 · 0 评论 -
HDFS-NN和SNN的关系(nn,snn工作机制,fismage,edits解析,checkpoint时间设置,NN故障处理,安全模式)(五)
HDFS-NameNode和SecondaryNameNode的关系一.NN和SNN工作机制1.第一阶段:NameNode启动2.第二阶段:Secondary NameNode工作二.Fsimage和Edits解析1.概念2.使用oiv查看fsimage文件(1)查看oiv和oev命令(2)基本语法(3)示例3.oev查看edits文件(1)基本语法(2)示例三.checkpoint时间设置四.NamNode故障处理1.方法一:将SecondaryNameNode中数据拷贝到NameNode存储数据的目录2原创 2020-12-09 15:04:01 · 668 阅读 · 0 评论 -
HDFS的Shell操作(二)
HDFS的Shell操作1.基本语法2.命令大全3.常用命令1.基本语法bin/hdfs dfs 具体命令2.命令大全[root@hadoop101 hadoop]$ bin/hdfs dfs[-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [原创 2020-12-06 21:04:07 · 134 阅读 · 0 评论 -
HDFS概述产生背景,优缺点以及HDFS组成架构(一)
HDFS概述产生背景,优缺点以及HDFS组成架构05.HDFS一.HDFS概述1.为什么出现HDFS?2.什么是分布式文件系统?3.HDFS概念4.HDFS优缺点(1)优点(2)缺点二.HDFS组成架构1.Client2.NameNode3.DataNode4.Secondary NameNode三.HDFS文件块05.HDFS一.HDFS概述1.为什么出现HDFS?随着数据量越来越大,需要存储和处理的数据量也就越来越大。我们操作使用操作系统的存储空间是有限的。因此需要把多个操作系统综合成一个大的操原创 2020-12-06 20:53:44 · 240 阅读 · 0 评论 -
Exception in thread “main“ java.lang.NoSuchFieldError: IBM_JAVA
问题报错:Exception in thread “main” java.lang.NoSuchFieldError: IBM_JAVA原因:是你的java依赖不完整,你丢失了jar包hadoop-auth-2.6.0.jar或更新的版本。字段IBM_JAVA位于java类PlatformName.class中,该类位于hadoop-auth-2.2.0.jar中的org.apache.hadoop.util包中。解决:重新在pom文件中下载hadoop-auth-2.2.0.jar包...原创 2020-12-02 11:35:35 · 1151 阅读 · 0 评论 -
MapReduce执行流程详解(Yarn模式)
MapReduce执行流程详解(Yarn模式)一.Reduce工作流程图二.MR整体执行流程(Yarn模式)一.Reduce工作流程图二.MR整体执行流程(Yarn模式)1.在MapReduce程序读取文件的输入目录上存放相应的文件。2.客户端程序在submit()方法执行前,获取待处理的数据信息,然后根据集群中的参数的配置形成一个任务分配规划。3.客户端提交切片信息给yarn,yarn中的resourcemanager启动MRappmaster。4.MRAPPmaster启动后根据本次job原创 2020-10-02 16:48:17 · 723 阅读 · 0 评论 -
Hadoop分布式计算框架MapReduce(二)
Hadoop分布式计算框架MapReduce一.MapReduce实现join操作1.Reduce join1.1.需求1.2.原理1.3.缺点1.4.基本分析1.5.具体事例实现2.Map Join2.1使用场景2.2使用方法2.3具体事例实现二.推测执行一.MapReduce实现join操作使用MapReduce API来实现join1.Reduce join1.1.需求假如数据量巨大,两表的数据是以文件的形式存储在 HDFS 中,需要用 MapReduce 程序来实现以下 SQL 查询运算:原创 2020-10-02 16:04:37 · 131 阅读 · 0 评论 -
Hadoop分布式计算框架MapReduce(一)
Hadoop分布式计算框架MapReduce一.MapReduce基础1. MapReduce定义2.MapReduce优缺点(1)优点(2)缺点3.MapReduce的设计思想二.MapReduce简单示例WordCount 的实现1 .Map端2.reduce端3.Driver端4.打jar包三.Hadoop序列化1.为什么序列化2.什么是序列化3.为什么不用java的序列化4.为什么序列化对Hadoop很重要?5.常用数据序列化类型6.示例四.MapReduce框架原理1.MapReduce执行过程1原创 2020-10-02 15:32:19 · 313 阅读 · 0 评论 -
Hadoop YARN(产生背景,YARN架构,yarn作业提交全过程,jobhistoryserver使用,资源调度器,yarn常用命令)
Hadoop YARN一.YARN基础1.YARN产生背景2.YARN概述二.YARN架构三.YARN工作机制**工作机制详解**1.作业提交2.作业初始化3.任务分配4.任务运行5.作业完成四.Yarn提交MapReduce程序1.运行框架自带的Mapreduce程序2.执行WordCount程序3.启动JobHistoryserver五.Yarn的资源调度器六.Yarn常用命令1.任务管理2.节点管理一.YARN基础1.YARN产生背景在hadoop1.x中,MapReduce采用的是Master原创 2020-09-15 19:41:09 · 313 阅读 · 0 评论 -
HDFS概述,读写原理及shell命令(四)
HDFS概述,读写原理及shell命令一.HDSF概述1.产生背景2.HDFS的优缺点(1)HDSF的优点(2)HDFS的缺点3.HDFS设计目标(1)硬件故障(2)大规模数据集(3)移动计算比移动数据更经济二.HDFS架构1.Client:客户端2.NameNode:元数据节点3.DataNode:数据节点4.Secondary NameNode:从数据节点三.使用HDFS处理移动通信数据1.使用HDFS shell 完成移动通信业务数据管理操作2.使用Java API操作完成移动通信数据的管理四.HDF原创 2020-09-13 15:59:04 · 420 阅读 · 0 评论 -
Hbase和hive单机安装及环境配置
Hbase和hive单机安装及环境配置一.Hbase单机伪分布式安装配置1.将安装包解压到opt文件夹下2.修改文件名并进行文件配置(1)配置hbase-env.sh(2)配置vi hbase-site.xml3.启动4.验证5.退出二.Hive1.前提条件2.将安装包解压到/opt文件夹下3.配置环境变量和配置文件(1) vi /etc/profile(2)hive-env.sh(3)加一个hive-site.xml文件4.启动5.验证一.Hbase单机伪分布式安装配置1.将安装包解压到opt文件夹下原创 2020-09-12 17:41:09 · 456 阅读 · 0 评论 -
大数据概况及hadoop生态系统
大数据概况及hadoop生态系统一.大数据基本概念和特征1.什么是大数据?2.大数据特征3.分布式计算二.Hadoop1.概念2.hadoop优点3.Hadoop vs. RDBMS4.Hadoop生态圈三.Zookeeper1.概念2.提供的功能3.特性4.zookeeper集群四.hadoop架构五.HDFS1.HDFS优点2.HDFS缺点3.HDFS CLI(命令行)4.使用HDFS shell 处理移动通讯数据5.HDFS角色6.HDFS架构7.HDFS副本机制8.HDFS高可用(High Avai原创 2020-09-09 18:38:06 · 235 阅读 · 0 评论 -
HDFS Java客户端操作(创建文件夹,上传、下载,删除文件,块详情查看,I/O流操作,是否是文件或者文件夹)(三)
一.Windows安装hadoop1.解压hadoop-2.6.0-cdh5.14.2到D盘2.把hadoop-bin.rar文件解压后所有文件拷到hadoop的bin文件夹下3.把bin文件下的hadoop.dll文件拷贝到C:\windows\System32目录下二.Java API完成移动通信数据的管理1.一般在idea中新建一个maven工程,并在pom.xml文件中添加maven依赖包注:如何建maven工程见博客:Maven安装 <dependency>原创 2020-09-09 10:04:04 · 867 阅读 · 0 评论 -
Hadoop高可用集群搭建
搭建hadoop-HA模式一.前提条件1.在搭建hadoop-HA模式前需要构建hadoop集群、设置好时区以及配置好zookeeper2.集群架构表二.修改配置文件1.修改core-site.xml文件2.修改hdfs-site.xml文件3.修改yarn-site.xml文件4.远程发送配置文件三.进行启动1.前提2.先启动journalnode3.进行格式化4.复制tmp文件夹5.启动一.前提条件1.在搭建hadoop-HA模式前需要构建hadoop集群、设置好时区以及配置好zookeeper详原创 2020-09-08 21:45:45 · 184 阅读 · 0 评论 -
hadoop集群搭建
hadoop集群搭建1.复制新的两台虚拟机2.在主机hadoop001上修改一下配置文件3.删除logs和tmp(注意:三台机器都需要删除成功)4.在第一台机器上进行格式化5.在第一台机器上进行开启6.通过jps进行验证1.复制新的两台虚拟机(三台机器都要确定都修改成功,互信要连接试试)(1)修改IP:vi /etc/sysconfig/network-scripts/ifcfg-ens33(2)重启网络:systemctl restart network(3)设置主机名:homenamectl原创 2020-09-05 21:15:13 · 214 阅读 · 0 评论 -
Hadoop安装以及环境配置
Hadoop安装以及环境配置1.创建一个纯净的虚拟机,安装好jdk和mysql2.解压hadoop.tar.gz(在根目录下创建一个software文件夹,把安装包都放在里面)[root@localhost /]# mkdir software[root@hadoop software]#tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz -C/opt改名:[root@localhost opt]# mv hadoop-2.6.0-cdh5.14.2 hadoop3原创 2020-09-04 21:16:20 · 518 阅读 · 0 评论