自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(107)
  • 收藏
  • 关注

原创 nacos集群注册服务启动报错——com.alibaba.nacos.api.exception.NacosException: failed to req API:*

在项目配置文件无问题的情况下 且有可能修改服务名就可以注册成功可以查看nacos集群的conf文件夹下的cluster.conf保持无集群外的IP且无重复IP 例:127.0.0.1:8840 不要和 192.168.88.1.8840 并存且在conf文件夹下的application.properties指定本地服务器的IP地址修改成功完成后重启集群就可以注册成功了...

2021-11-19 09:34:27 19567

原创 com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException

说明驱动包错误,加载不到驱动类先查看pom文件mysql连接版本改为 8.0版本依旧报错查看是否加载到8.0版本的jar包若不是先删除再手动添加即可

2021-06-17 08:54:52 26302

转载 Kafka面试题

请说明什么是Apache Kafka?Apache Kafka是由Apache开发的一种发布订阅消息系统,它是一个分布式的、分区的和可复制的提交日志服务。说说Kafka的使用场景?①异步处理②应用解耦③流量削峰④日志处理⑤消息通讯等。使用Kafka有什么优点和缺点?优点:①支持跨数据中心的消息复制;②单机吞吐量:十万级,最大的优点,就是吞吐量高;③topic数量都吞吐量的影响:topic从几十个到几百个的时候,吞吐量会大幅度下降。所以在同等机器下,k..

2021-05-21 21:32:02 18225

原创 scala常见笔试题

Q1 var,val和def三个关键字之间的区别?var是变量声明关键字,类似于Java中的变量,变量值可以更改,但是变量类型不能更改。val常量声明关键字。def 关键字用于创建方法(注意方法和函数的区别)还有一个lazy val(惰性val)声明,意思是当需要计算时才使用,避免重复计算代码示例:var x = 3 // x是Int类型x = 4 // x = "error" // 类型变化,编译器报错'error: type mismatch'valy=3...

2021-04-16 15:45:13 18890 3

转载 Git常用命令

Git常用命令一、新建代码库二、配置三、增加/删除文件四、代码提交五、分支六、标签七、查看信息八、远程同步九、撤销十、其他一、新建代码库在当前目录新建一个Git代码库git init新建一个目录,将其初始化为Git代码库git init [project-name]下载一个项目和它的整个代码历史git clone [url]二、配置Git的设置文件为.gitconfig,它可以在用户主目录下(全局配置),也可以在项目目录下(项目配置)。显示当前的Git配置git config -

2020-12-23 21:28:23 18325

转载 git Changes not staged for commit:

报错信息:git commit 提交更新时报错$ git commitOn branch masterChanges not staged for commit: modified: ano changes added to commit报错原因:看报错的最后一句"no changes added to commit"没有添加改变来提交。工作区和暂存区的概念: 工作区是我们建立的文件夹,存放各种代码和文件; 而工作区内有一个隐藏的文件夹.git是g

2020-12-23 21:24:17 19138 1

原创 Git Please tell me who you are

报错信息:提交文件到版本库时报Please tell me who you are.报错原因:在创建git文件夹的时候信息不完善导致的解决方法:git config --global user.email "你的邮箱"git config --global user.name "你的名字"在次使用git commit提交即可...

2020-12-23 21:23:03 18336

原创 服务器时间同步

服务器时间同步服务器与本地时间同步 服务器与阿里云服务器时间同步 服务器与其他服务器时间同步服务器与本地时间同步通过VM 使服务器与本地时间同步右击需要同步时间的服务器点击设置选择选项选择步骤2 的红框勾选“将客户机时间与主机同步”点击确定即可服务器与阿里云服务器时间同步安装ntpdate 工具 yum -y install ntp ntpdate1启动ntpdate 工具 service ntpdate start1使.

2020-12-23 21:19:56 18484

原创 Hadoop-Hive 自定义函数实现步骤

1、创建maven java 工程,导入jar包<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository></repositories><depend...

2020-12-17 19:56:20 18542

原创 HIve讲解(详细)

Hive一、Hive基本概念1.1、Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复...

2020-12-17 19:53:02 20705

原创 Hadoop核心Yarn运行流程

简略版: client向RM提交应用程序,其中包括启动该应用的ApplicationMaster的必须信息,例如ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。 ResourceManager启动一个container用于运行ApplicationMaster。 启动中的ApplicationMaster向ResourceManager注册自己,启动成功后与RM保持心跳。 ApplicationMaster向Reso.

2020-11-12 18:14:13 18997 1

原创 MapReduce阶段基础知识(详细)

目录 什么是计算框架? 什么是并行计算框架? 什么是分布式计算? MapReduce核心思想 MapReduce并行计算 MapReduce设计构思 Hadoop MapReduce构思体现在如下的三个方面: 如何应对大数据处理:分而治之 构建抽象模型:Map和Reduce 统一构架,隐藏系统层细节 MapReduce的combiner MapTask运行机制详解以及Map任务的并行度 ..

2020-11-11 17:20:26 23148 1

原创 Hadoop-MapReduce reduce端join与map端join算法实现

reduce端join与map端join算法实现reduce端join与map端join算法实现reduce端join算法实现JavaBean类Map类Reduce类Driver类map端join算法实现Map类Driver类reduce端join算法实现JavaBean类import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.D.

2020-11-06 20:33:27 20853

原创 Hadoop-MapReduce基本代码一览

Hadoop-MapReduce基本代码一览Hadoop-MapReduce基本代码一览JavaBean类Map类Partitions类Reduce类Driver类JavaBean类import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class PhoneBean .

2020-11-06 20:27:25 20902

原创 hadoop-HA集群搭建步骤

**注意:要先安装配置好zooekeeper集群,详情请点链接:link. **hadoop-HA集群搭建步骤hadoop-HA集群搭建步骤修改core-site.xml修改hdfs-site.xml修改mapred-site.xml修改yarn-site.xml修改slaves将软件拷贝到所有节点配置免密码登陆启动zookeeper集群(分别在node01、node02、node03上启动zk)手动启动journalnode(分别在在node01、node02.

2020-11-06 20:23:30 20925

原创 ZooKeeper shell命令

文章目录一、客户端连接二、shell基本操作1.创建节点(1)创建顺序节点:(2)创建临时节点:(3)创建永久节点:2.读取节点3.更新节点4.删除节点5.quota6.其他命令总结一、客户端连接运行 zkCli.sh –server ip 进入命令行工具。输入help,输出zk shell提示:二、shell基本操作1.创建节点create [-s] [-e] path data acl其...

2020-11-04 20:35:39 21899 1

原创 ZooKeeper集群搭建

系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录 前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习..

2020-11-04 20:02:05 21633

原创 ZooKeeper是什么、特点、集群角色

一、ZooKeeper概述 Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。 ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。二、ZooKeeper特性全局数据一致:集群中每个服务器保存一份相同的数据副本,client无...

2020-11-03 20:25:50 21726

原创 MapReduce执行警告WARN mapreduce.JobResourceUploader

WARN mapreduce.JobResourceUploader: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.这个警告的意思是代码里用的运行方式过时了,推荐使用继承Configured实现Tool接口的方式来实现它 如下:import org.apac.

2020-10-23 09:32:15 29390

原创 HDFS java API操作

HDFS的javaAPI操作 目标:掌握如何使用API对HDFS上的目录和数据进行增、删、改、查操作。1.idea创建maven工程2.修改pom.xml文件如下:(需要下载jar包,时间可能稍长)<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org...

2020-10-20 20:23:26 22976

原创 HDFS新增节点与删除节点

HDFS新增节点与删除节点服役新数据节点 目标:掌握HDFS新添加节点到集群的步骤需求基础: 随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。准备新节点 第一步:复制一台新的虚拟机出来 将我们纯净的虚拟机复制一台出来,作为我们新的节点 第二步:修改mac地址以及IP地址 修改mac地址命令vim /etc/udev/ru...

2020-10-19 20:45:43 22394 2

原创 HDFS namenode故障恢复

namenode故障恢复 目标:掌握nameNode故障后如何恢复 secondaryNamenode对namenode当中的fsimage和edits进行合并时,每次都会先将namenode的fsimage与edits文件拷贝一份过来,所以fsimage与edits文件在secondarNamendoe当中也会保存有一份,如果namenode的fsimage与edits文件损坏,那么我们可以将secondaryNamenode当中的fsimage与edits拷贝过去给namenod...

2020-10-19 20:12:57 22524

原创 HDFS namenode元数据信息多目录配置

为了保证元数据的安全性,我们一般都是先确定好我们的磁盘挂载目录,将元数据的磁盘做RAID1 namenode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性。 具体配置如下: hdfs-site.xml<property> <name>dfs.namenode.name.dir</name> <value> file:///export...

2020-10-19 19:58:34 22621

原创 HDFS secondarynameNode如何辅助管理FSImage与Edits文件

secondarynameNode如何辅助管理FSImage与Edits文件 目标:掌握secondarynameNode是符合辅助nameNode合并Fsimage和Edits的。 由于editlog记录了集群运行期间所有对HDFS的相关操作,所以这个文件会很大。集群关闭后再次启动时会将Fsimage,editlog加载到内存中,进行合并,恢复到集群的。 由于editlog文件很大所有,集群再次启动时会花费较长时间。 为了加快集群的启动时间,所以使用seco...

2020-10-19 19:55:48 22780

原创 HDFS高级命令

HDFS文件限额配置HDFS的安全模式总结:文件夹内文件数量限制 设置数量:hdfs dfsadmin -setQuota 2 /aa 取消设置:hdfs dfsadmin -clrQuota /aa 文件夹内存储空间大小限制 设置大小:hdfs dfsadmin -setSpaceQuota 100M /aa 取消设置:hdfs dfsadmin -clrSpaceQuota...

2020-10-14 20:38:32 22769

原创 HDFS fsimage和edits中的文件信息查看

FSimage文件当中的文件信息查看使用命令 hdfs oivcd /export/servers/Hadoop-2.6.0-cdh5.14.0/HadoopDatas/namenodeDatas/currenthdfs oiv -i fsimage_0000000000000000864 -p XML -o hello.xmledits当中的文件信息查看查看命令 hdfs oevcd /export/servers/hadoop-2.6.0-cdh5.1...

2020-10-14 20:35:01 23414

原创 HDFS的fsimage和edits是什么、有什么作用

Fsimage,Edits详解目标:掌握Fsimage和Edits的作用。NameNode元数据解析(1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载edits和fsimage文件到内存。(2)客户端对元数据进行增删改的请求。(3)namenode记录操作日志,更新滚动日志。(4)namenode在内存中对数据进行增删改查。 fsimage保存了最新的元数据检查点,在HDFS启动时加载fsimage的信...

2020-10-14 20:27:49 25325

原创 HDFS的文件权限验证

hdfs的文件权限机制与linux系统的文件权限机制类似 r:read w:write x:execute 权限x对于文件表示忽略,对于文件夹表示是否有权限访问其内容 如果linux系统用户zhangsan使用Hadoop命令创建一个文件,那么这个文件在HDFS当中的owner就是zhangsan HDFS文件权限的目的,防止好人做错事,而不是阻止坏人做坏事。HDFS相信你告诉我你是谁,你就是谁...

2020-10-14 20:19:45 22909

原创 HDFS的安全模式

hdfs的安全模式目标:掌握什么是HDFS的安全模式,以及安全模式的作用安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求。在NameNode主节点启动时,HDFS首先进入安全模式,DataNode在启动的时候会向namenode汇报可用的block等状态,当整个系统达到安全标准时,HDFS自动离开安全模式。如果HDFS处于安全模式下,则文件block不能进行任何的副本复制操作,因此达到最小的副本数量要求是基于datanode启动时的状态来

2020-10-14 20:17:47 22923

原创 HDFS文件限额配置

hdfs文件的限额配置允许我们以文件大小或者文件个数来限制某个目录下上传的文件数量或者文件内容总量,以便达到我们类似百度网盘网盘等限制每个用户允许上传的最大的文件的量数量限额hdfs dfs -mkdir -p /user/root/lisi #创建hdfs文件夹hdfs dfsadmin -setQuota 2 lisi # 给该文件夹下面设置最多上传两个文件,上传文件,发现只能上传一个文件hdfs dfsadmin -clrQuota /user/ro...

2020-10-14 20:14:50 23853 1

原创 HDFS的特点

HDFS的优点:目标:掌握HDFS具备的特性 1、海量数据存储: HDFS可横向扩展,其存储的文件可以支持PB级别或更高级别的数据存储。 2、高容错性:数据保存多个副本,副本丢失后自动恢复。可构建在廉价的机器上,实现线性扩展。当集群增加新节点之后,namenode也可以感知,进行负载均衡,将数据分发和备份数据均衡到新的节点上。 3、商用硬件:Hadoop并不需要运行在昂贵且高可靠的硬件上。它是设计运行在商用硬件(廉价商业硬件)的集群上的。 4、大文件存储:...

2020-10-14 20:07:36 26956

原创 HDFS shell命令操作大全

HDFS的shell命令操作目标:掌握HDFS操作数据的命令基本语法bin/hdfs dfs 具体命令参数大全[root@node01 Hadoop-2.6.0-cdh5.14.0]# bin/hdfs dfsUsage: Hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...]

2020-10-14 20:04:39 22919

原创 HDFS DataNode的目录结构

DataNode的目录结构目标:掌握DataNode的目录结构和namenode不同的是,datanode的存储目录是初始阶段自动创建的,不需要额外格式化。在 /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas/current这个目录下查看版本号[root@node01 current]# cat VERSION #Thu Mar 14 07:58:46 CST 2019storageID=DS-47bcc6d5

2020-10-14 19:48:39 22771

原创 HDFS掉线时限参数设置

掉线时限参数设置datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为:timeout = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval。而默认的dfs.namenode.heart

2020-10-14 19:42:49 23503

原创 HDFS数据完整性

数据完整性目标:掌握HDFS数如何宝成数据的完整性的当DataNode读取block的时候,它会计算checksum如果计算后的checksum,与block创建时(第一次上传是会计算checksum值)值不一样,说明block已经损坏。client读取其他DataNode上的block.datanode在其文件创建后周期验证checksum...

2020-10-13 07:41:05 23252

原创 HDFS文件取过过程

文件读取过程目标:掌握HDFS读取数据的详细过程详细步骤解析客户端通过调用FileSystem对象的open()来读取希望打开的文件。Client向NameNode发起RPC请求,来确定请求文件block所在的位置;NameNode会视情况返回文件的部分或者全部block列表,对于每个block,NameNode 都会返回含有该 block 副本的 DataNode 地址; 这些返回的 DN 地址,会按照集群拓扑结构得出 DataNode 与客户端的距离,然后进行排序,排序两个规则

2020-10-12 20:59:18 23481

原创 HDFS文件写入过程

文件写入过程目标:掌握HDFS写入数据的详细过程详细步骤解析:List itemclient发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;client请求第一个block该传输到哪些DataNode服务器上;NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的DataNode的地址如:A,B,C;client请求3台DataNode中的一台A上传数据(本质上是一个R

2020-10-12 20:56:08 23791

原创 HDFS机架感知

机架感知目标:掌握集群的机架感知配置机架感知需要人为进行配置,编写Python脚本“RackAware.py”。内容为服务器IP与交换机的对应关系。(开源hadoop,使用RackAware.sh)#!/usr/bin/python #-*-coding:UTF-8 -*- import sys rack = { "12.12.3.1":"SW6300-1", "12.12.3.2":"SW6300-1", "12.12.

2020-10-12 20:52:27 23288

原创 HDFS Datanode功能

Datanode功能目标:掌握DataNode有哪些主要的功能文件的各个 block 的具体存储管理由 datanode 节点承担。每一个 block 都可以在多个datanode 上。Datanode 需要定时向 Namenode 汇报自己持有的 block信息。 存储多个副本(副本数量也可以通过参数设置 dfs.replication,默认是 3)。向Namenode结点报告状态。每个Datanode结点会周期性地向Namenode发送心跳信号和文件块状态报告。心跳是每3秒一次,心跳返

2020-10-12 20:49:42 24007

原创 HDFS Namenode 功能

Namenode 功能目标:掌握NameNode有哪些主要的功能我们把目录结构及文件分块位置信息叫做元数据。Namenode 负责维护整个hdfs文件系统的目录树结构,以及每一个文件所对应的 block 块信息(block 的id,及所在的datanode 服务器)。Namenode节点负责确定指定的文件块到具体的Datanode结点的映射关系。在客户端与数据节点之间共享数据。管理Datanode结点的状态报告,包括Datanode结点的健康状态报告和其所在结点上数据块状态报告,以便能

2020-10-12 20:43:54 24335

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除