自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (5)
  • 问答 (1)
  • 收藏
  • 关注

原创 Hadoop HA 原理及HA 高可用集群搭建

完全分布式参考:Hadoop完全分布式搭建。目录一、前期准备二、HA 概述三、原理四、HA 集群搭建4.1 HA集群搭建规划4.2 Hadoop HA集群搭建五、web端访问查询序:软件版本:VMware:VMware-15.5.1 Linux:CentOS-7.5-x86_64-DVD-1804.iso JDK:jdk-8u212-linux-x64.tar.gz Hadoop:hadoop-3.1.3.tar.gz Zookeeper:zookeepe

2020-05-31 10:38:06 790

原创 hadoop 提交时 Safe mode is ON. Resources are low on NN 问题解决方案

先前在hadoop集群跑job时出现任务执行到30%停止,且机器发热严重,一度以为机器问题,而后在集群提交作业时,出现如下问题,namenode节点资源不足,请释放资源或增加资源。705013485_0008. Name node is in safe mode.Resources are low on NN. Please add or free up more resources then turn off safe mode manually. NOTE: If you turn off s

2020-07-23 17:35:14 3665

原创 分布式集群时间同步设置

序:软件版本apache hadoop 3.1.3目录1. 时间服务器配置(必须root用户)2. 其他机器配置(必须root用户)时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。配置时间同步具体实操:1. 时间服务器配置(必须root用户)(1)在所有节点关闭ntp服务和自启动sudo systemctl stop ntpdsudo systemctl disable ntpd(2...

2020-06-22 11:18:45 290

原创 Hadoop:HDFS 知识点总结,适合知识点复习回顾

一、HDFS分布式文件管理系统,分布式的意思是多态设备,适合一次性写入,多次读出的场景,只支持追加修改二、分布式文件管理系统的优缺点 优点 1、高可靠性 2、适合大数据 3、可以布置在相对廉价的服务器、 缺点: 1、不适合存储小文件 2、不适合低延时数据访问 文件块:HDFS的数据存储是以文件块的形式存储,hadoop1.x默认文件块大小64MB,hadoop2.x至最新hadoop3.2.1以128M...

2020-06-18 20:10:20 407

原创 KAFKA监控: Kafka - eagle

序:软件版本VMware:VMware-15.5.1 Linux:CentOS-7.5-x86_64 JDK:jdk-8u212-linux-x64 Hadoop:hadoop-3.1.3 Kafka:2.4.1 Kafka-eagle :1.4.5目录1. 修改kafka启动命令2. 上传压缩包kafka-eagle-bin-1.4.5.tar.gz到集群/opt/software目录3. 解压到本地4. 进入刚才解压的目录5. 将kafka-eagle-web-1..

2020-06-16 23:15:53 285

原创 shell常用指令

2020-06-16 22:53:40 79

原创 Linux常用命令

2020-06-16 21:03:57 72

原创 Flume数据流监控:Ganglia的安装与部署

序:软件版本VMware:VMware-15.5.1 Linux:CentOS-7.5-x86_64 JDK:jdk-8u212-linux-x64 Hadoop:hadoop-3.1.3 Flume:Flume 1.9.0目录1、Ganglia的安装与部署1.1 安装ganglia1.2、在102修改配置文件/etc/httpd/conf.d/ganglia.conf1.3、在102修改配置文件/etc/ganglia/gmetad.conf1.4、在102 103 10

2020-06-10 12:46:32 233

原创 Hadoop集群:容量调度器多队列设置

软件版本:VMware:VMware-15.5.1 Linux:CentOS-7.5-x86_64-DVD-1804.iso JDK:jdk-8u212-linux-x64.tar.gz Hadoop:hadoop-3.1.3.tar.gz目录1需求2配置多队列的容量调度器3 web查看调度器1需求Yarn默认的容量调度器是一条单队列的调度器,在实际使用中会出现单个任务阻塞整个队列的情况。同时,随着业务的增长,公司需要分业务限制集群使用率。这就需要我们按照业务种类配置多...

2020-06-04 17:59:34 699

原创 Liunx:Hive的安装部署

序:软件版本Liunx:centOS 7.5Mysql:5.7.28Hive:3.1.2Hadoop:3.1.3目录序:软件版本一、Hive安装部署1、把hive及JDBC driver驱动上传到linux的/opt/software目录下2、解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面3、修改apache-hive-3.1.2-bin.tar.gz的名称为hive(可选择)4、修改/etc/profile.d/m

2020-06-01 19:52:40 652

原创 Liunx:mysql安装

序:软件版本Liunx:centOS 7.5mysql:5.7.28目录序:软件版本1、检查当前系统是否安装过Mysq2、将MySQL安装包拷贝到/opt/software目录下3、解压MySQL安装包4、在安装目录下执行rpm安装5、删除/etc/my.cnf文件中datadir指向的目录下的所有内容6、初始化数据库7、查看临时生成的root用户的密码8、启动MySQL服务9、登录MySQL数据库10、修改root用户的密码11、修改mysql库

2020-06-01 18:56:47 185

原创 Hadoop常用调优参数

目录一、资源相关参数二、容错相关参数(MapReduce性能优化)一、资源相关参数1、以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml)如:表1 配置参数 参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。 mapredu.

2020-05-28 14:39:40 106

原创 自动化构建工具:maven

目录一、什么是maven?为什么使用maven?二、maven的核心概念三、maven 酷站一、什么是maven?为什么使用maven?Maven是一款自动化构建工具,专注服务于Java平台的项目构建和依赖管理,其主要功能如下:帮忙管理第三方jar包,处理jar包依赖,将需求jar包下载到本地库 按照路径最短和先声明原则处理jar包冲突 利用maven的依赖机制,将项目拆分多模块,便于管理 可以实现项目的分布式部署构建就是以我们编写的Java代码、框架配置文件、国际化等其他资

2020-05-28 11:13:31 218

原创 解决小文件问题方式二:Uber模式

目录一、什么是Uber模式二、如何开启Uber模式Hadoop使用中,小文件不仅会导致Namenode内存不足、存储效率低的问题,还会在进行MR计算时,会导致生成过多的切片,需要启动过多的MapTask。每个MapTask的运行都对应一个JVM,那么如此多的JVM开启和关闭,不仅造成了资源的浪费,还降低了计算效率。解决小文件问题方式很多,除了使用CombineTextInputFormat来减少切片数量,还可以使用Uber模式。一、什么是Uber模式Uber模式是Hadoop的一种j

2020-05-27 22:29:24 463

原创 解决小文件问题方式一:CombineTextInputFormat 切片合并

目录一、CombineTextInputFormat虚拟切片最大尺寸设置二、多个小文件的切片机制三、总结框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。那么处理小文件就需要CombineTextInputFormat了,CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样

2020-05-27 22:04:58 658

原创 hadoop源码分析:切片的执行规则

接触Hadoop的小伙伴应该都知道,Split(切片)的数目就是MapReduce运行时将要产生的MapTask数,那么Hadoop是如何进行切片的规则是什么呢?Hadoop的切片功能是在FileInputFormat中实现的,里边定义了切片相关的属性配置和实现切片的getSplit()方法。以下是FileInputFormat类中与切片相关的属性及属性的get、set方法。public abstract class FileInputFormat<K, V> extends Inpu

2020-05-27 19:35:30 369

原创 Hadoop源码分析:WritableComparator及排序实现方式

通过MapReduce 中 comparator的获取可以了解到,若Mapper输出的Key为Hadoop自己的类型,则有属于自己的比较器实现排序。若是Key为自定义类型,则需要自定义类型,则需要实现WritableComparable接口。

2020-05-26 20:15:52 1269

原创 Hadoop源码分析:Comparator的获取

目录一、MapReduce中的排序二、问题的引入三、源码解析四、总结排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据Key进行排序,该操作是Hadoop的默认行为。不管逻辑是否需要,MapReduce程序中的Key值都会进行排序。一、MapReduce中的排序MapReduce程序中都有哪些排序呢?下图为Mapreduce程序的执行流程图。如图所示,内部排序分为Mapper端的快速排序和归并排序,以及Reducer端的归并排序。

2020-05-25 20:41:19 398

原创 WordCount案例及MapReduce运行的三种方式

目录一、MapReduce案例准备二、运行方式一:本地执行三、运行方式二:打jar包,集群执行四、运行方式三:以idea为入口,集群执行一、MapReduce案例准备在Idea中创建一个MapReduce工程,对指定目录下文件的单词个数进行统计。MapReduce框架在使用时,需要编写三个类:CountDriver,CountMapper,CountReducer。其中CountDriver为最终的执行类;CountMapper继承Mapper类,重写map方法,实现Map阶段.

2020-05-21 16:05:22 572

原创 hadoop完全分布式集群搭建

序:相关软件一、前期准备二、jdk,hadoop安装、配置2.1、jdk、hadoop安装2.2、配置jdk、hadoop环境变量三、编写集群分发脚本,完成其他服务器的jdk、hadoop安装与配置四、集群配置规划五、完全分布式属性配置5.1、core-site.xml5.2、hdfs-site.xml5.3、yarn-site.xml5.4、mapred-site.xml5.5、workers5.6、集群配置同步六、ssh无密登录配置七、集群启动

2020-05-18 10:13:51 421

原创 hadoop伪分布式运行环境搭建

序:相关软件版本一、前期准备二、需要修改的配置三、配置修改过程3.1、环境变量设置,将JAVA变量增加到hadoop变量中3.2、配置core-site.xml3.3、配置hdfs-site.xml3.4、配置yarn-site.xml3.5、配置mapred-site.xml,指定job在yarn上运行四、启动伪分布式集群4.1、格式化namenode (第一次启动前进行格式化,之后尽量不要格式化)4.2、启动namenode、datenode4.3、启动r

2020-05-16 16:14:40 476

DML & DDL.pdf

整理了SQL中DML DDL的相关笔记

2021-08-23

apache-hive-3.1.2-bin.tar.gz

附件是Liunx中Hive 客户端JDBC驱动,该驱动可实现Hive访问MySQL。安装时,将此包放在Hive安装目录下的lib中。

2020-06-01

Javase基础及高级部分思维导图

本资源以思维导图的方式,罗列了javase基础及高级部分的知识点,剔除了一些java常识的知识点,只保留了易错、易混点,并提供了部分使用方法。适合初学者作为复习使用。

2020-05-19

maven及其安装和使用.7z

提供了maven的驱动,setting模板和idea使用指南。详细介绍了maven的安装及配置过程,idea内使用maven创建工程的流程。

2020-05-07

baseDAO及其实现案例、jdbcUtil工具类、数据池c3p0、dbcp、druid驱动及实现方式

本资源提供了jdbcUtil工具类及普通、c3p0、dbcp和druid获得连接的方法。提供了java对数据库增删改查的baseDAO,结合customer类进行实例操作。

2020-05-03

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除