自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

m0_46589706的博客

原创 Hadoop HA 原理及HA 高可用集群搭建

完全分布式参考：Hadoop完全分布式搭建。目录一、前期准备二、HA 概述三、原理四、HA 集群搭建4.1 HA集群搭建规划4.2 Hadoop HA集群搭建五、web端访问查询序：软件版本：VMware：VMware-15.5.1 Linux：CentOS-7.5-x86_64-DVD-1804.iso JDK:jdk-8u212-linux-x64.tar.gz Hadoop：hadoop-3.1.3.tar.gz Zookeeper:zookeepe

2020-05-31 10:38:06 892

原创 hadoop 提交时 Safe mode is ON. Resources are low on NN 问题解决方案

先前在hadoop集群跑job时出现任务执行到30%停止，且机器发热严重，一度以为机器问题，而后在集群提交作业时，出现如下问题，namenode节点资源不足，请释放资源或增加资源。705013485_0008. Name node is in safe mode.Resources are low on NN. Please add or free up more resources then turn off safe mode manually. NOTE: If you turn off s

2020-07-23 17:35:14 4036

原创分布式集群时间同步设置

序：软件版本apache hadoop 3.1.3目录1. 时间服务器配置（必须root用户）2. 其他机器配置（必须root用户）时间同步的方式：找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，比如，每隔十分钟，同步一次时间。配置时间同步具体实操：1. 时间服务器配置（必须root用户）（1）在所有节点关闭ntp服务和自启动sudo systemctl stop ntpdsudo systemctl disable ntpd（2...

2020-06-22 11:18:45 360

原创 Hadoop：HDFS 知识点总结，适合知识点复习回顾

一、HDFS分布式文件管理系统，分布式的意思是多态设备，适合一次性写入，多次读出的场景，只支持追加修改二、分布式文件管理系统的优缺点优点 1、高可靠性 2、适合大数据 3、可以布置在相对廉价的服务器、缺点： 1、不适合存储小文件 2、不适合低延时数据访问文件块：HDFS的数据存储是以文件块的形式存储，hadoop1.x默认文件块大小64MB，hadoop2.x至最新hadoop3.2.1以128M...

2020-06-18 20:10:20 479

原创 KAFKA监控： Kafka - eagle

序：软件版本VMware：VMware-15.5.1 Linux：CentOS-7.5-x86_64 JDK:jdk-8u212-linux-x64 Hadoop：hadoop-3.1.3 Kafka：2.4.1 Kafka-eagle ：1.4.5目录1. 修改kafka启动命令2. 上传压缩包kafka-eagle-bin-1.4.5.tar.gz到集群/opt/software目录3. 解压到本地4. 进入刚才解压的目录5. 将kafka-eagle-web-1..

2020-06-16 23:15:53 361

原创 shell常用指令

2020-06-16 22:53:40 124

原创 Linux常用命令

2020-06-16 21:03:57 112

原创 Flume数据流监控：Ganglia的安装与部署

序：软件版本VMware：VMware-15.5.1 Linux：CentOS-7.5-x86_64 JDK:jdk-8u212-linux-x64 Hadoop：hadoop-3.1.3 Flume：Flume 1.9.0目录1、Ganglia的安装与部署1.1 安装ganglia1.2、在102修改配置文件/etc/httpd/conf.d/ganglia.conf1.3、在102修改配置文件/etc/ganglia/gmetad.conf1.4、在102 103 10

2020-06-10 12:46:32 332

原创 Hadoop集群：容量调度器多队列设置

软件版本：VMware：VMware-15.5.1 Linux：CentOS-7.5-x86_64-DVD-1804.iso JDK:jdk-8u212-linux-x64.tar.gz Hadoop：hadoop-3.1.3.tar.gz目录1需求2配置多队列的容量调度器3 web查看调度器1需求Yarn默认的容量调度器是一条单队列的调度器，在实际使用中会出现单个任务阻塞整个队列的情况。同时，随着业务的增长，公司需要分业务限制集群使用率。这就需要我们按照业务种类配置多...

2020-06-04 17:59:34 773

原创 Liunx：Hive的安装部署

序：软件版本Liunx：centOS 7.5Mysql：5.7.28Hive：3.1.2Hadoop：3.1.3目录序：软件版本一、Hive安装部署1、把hive及JDBC driver驱动上传到linux的/opt/software目录下2、解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面3、修改apache-hive-3.1.2-bin.tar.gz的名称为hive（可选择）4、修改/etc/profile.d/m

2020-06-01 19:52:40 723

原创 Liunx：mysql安装

序：软件版本Liunx:centOS 7.5mysql：5.7.28目录序：软件版本1、检查当前系统是否安装过Mysq2、将MySQL安装包拷贝到/opt/software目录下3、解压MySQL安装包4、在安装目录下执行rpm安装5、删除/etc/my.cnf文件中datadir指向的目录下的所有内容6、初始化数据库7、查看临时生成的root用户的密码8、启动MySQL服务9、登录MySQL数据库10、修改root用户的密码11、修改mysql库

2020-06-01 18:56:47 245

原创 Hadoop常用调优参数

目录一、资源相关参数二、容错相关参数(MapReduce性能优化)一、资源相关参数1、以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）如：表1 配置参数参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限（单位:MB），默认为1024。如果MapTask实际使用的资源量超过该值，则会被强制杀死。 mapredu.

2020-05-28 14:39:40 143

原创自动化构建工具：maven

目录一、什么是maven？为什么使用maven？二、maven的核心概念三、maven 酷站一、什么是maven？为什么使用maven？Maven是一款自动化构建工具，专注服务于Java平台的项目构建和依赖管理，其主要功能如下：帮忙管理第三方jar包，处理jar包依赖，将需求jar包下载到本地库按照路径最短和先声明原则处理jar包冲突利用maven的依赖机制，将项目拆分多模块，便于管理可以实现项目的分布式部署构建就是以我们编写的Java代码、框架配置文件、国际化等其他资

2020-05-28 11:13:31 278

原创解决小文件问题方式二：Uber模式

目录一、什么是Uber模式二、如何开启Uber模式Hadoop使用中，小文件不仅会导致Namenode内存不足、存储效率低的问题，还会在进行MR计算时，会导致生成过多的切片，需要启动过多的MapTask。每个MapTask的运行都对应一个JVM，那么如此多的JVM开启和关闭，不仅造成了资源的浪费，还降低了计算效率。解决小文件问题方式很多，除了使用CombineTextInputFormat来减少切片数量，还可以使用Uber模式。一、什么是Uber模式Uber模式是Hadoop的一种j

2020-05-27 22:29:24 570

原创解决小文件问题方式一：CombineTextInputFormat 切片合并

目录一、CombineTextInputFormat虚拟切片最大尺寸设置二、多个小文件的切片机制三、总结框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其低下。那么处理小文件就需要CombineTextInputFormat了，CombineTextInputFormat用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样

2020-05-27 22:04:58 779

原创 hadoop源码分析：切片的执行规则

接触Hadoop的小伙伴应该都知道，Split（切片）的数目就是MapReduce运行时将要产生的MapTask数，那么Hadoop是如何进行切片的规则是什么呢？Hadoop的切片功能是在FileInputFormat中实现的，里边定义了切片相关的属性配置和实现切片的getSplit（）方法。以下是FileInputFormat类中与切片相关的属性及属性的get、set方法。public abstract class FileInputFormat<K, V> extends Inpu

2020-05-27 19:35:30 445

原创 Hadoop源码分析：WritableComparator及排序实现方式

通过MapReduce 中 comparator的获取可以了解到，若Mapper输出的Key为Hadoop自己的类型，则有属于自己的比较器实现排序。若是Key为自定义类型，则需要自定义类型，则需要实现WritableComparable接口。

2020-05-26 20:15:52 1438

原创 Hadoop源码分析：Comparator的获取

目录一、MapReduce中的排序二、问题的引入三、源码解析四、总结排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据Key进行排序，该操作是Hadoop的默认行为。不管逻辑是否需要，MapReduce程序中的Key值都会进行排序。一、MapReduce中的排序MapReduce程序中都有哪些排序呢？下图为Mapreduce程序的执行流程图。如图所示，内部排序分为Mapper端的快速排序和归并排序，以及Reducer端的归并排序。

2020-05-25 20:41:19 465

原创 WordCount案例及MapReduce运行的三种方式

目录一、MapReduce案例准备二、运行方式一：本地执行三、运行方式二：打jar包，集群执行四、运行方式三：以idea为入口，集群执行一、MapReduce案例准备在Idea中创建一个MapReduce工程，对指定目录下文件的单词个数进行统计。MapReduce框架在使用时，需要编写三个类:CountDriver，CountMapper，CountReducer。其中CountDriver为最终的执行类；CountMapper继承Mapper类，重写map方法，实现Map阶段.

2020-05-21 16:05:22 635

原创 hadoop完全分布式集群搭建

序：相关软件一、前期准备二、jdk，hadoop安装、配置2.1、jdk、hadoop安装2.2、配置jdk、hadoop环境变量三、编写集群分发脚本，完成其他服务器的jdk、hadoop安装与配置四、集群配置规划五、完全分布式属性配置5.1、core-site.xml5.2、hdfs-site.xml5.3、yarn-site.xml5.4、mapred-site.xml5.5、workers5.6、集群配置同步六、ssh无密登录配置七、集群启动

2020-05-18 10:13:51 499

原创 hadoop伪分布式运行环境搭建

序：相关软件版本一、前期准备二、需要修改的配置三、配置修改过程3.1、环境变量设置，将JAVA变量增加到hadoop变量中3.2、配置core-site.xml3.3、配置hdfs-site.xml3.4、配置yarn-site.xml3.5、配置mapred-site.xml,指定job在yarn上运行四、启动伪分布式集群4.1、格式化namenode （第一次启动前进行格式化，之后尽量不要格式化）4.2、启动namenode、datenode4.3、启动r

2020-05-16 16:14:40 560

apache-hive-3.1.2-bin.tar.gz

附件是Liunx中Hive 客户端JDBC驱动，该驱动可实现Hive访问MySQL。安装时，将此包放在Hive安装目录下的lib中。

2020-06-01

Javase基础及高级部分思维导图

本资源以思维导图的方式，罗列了javase基础及高级部分的知识点，剔除了一些java常识的知识点，只保留了易错、易混点，并提供了部分使用方法。适合初学者作为复习使用。

2020-05-19

DML & DDL.pdf

整理了SQL中DML DDL的相关笔记

2021-08-23

baseDAO及其实现案例、jdbcUtil工具类、数据池c3p0、dbcp、druid驱动及实现方式

本资源提供了jdbcUtil工具类及普通、c3p0、dbcp和druid获得连接的方法。提供了java对数据库增删改查的baseDAO，结合customer类进行实例操作。

2020-05-03

maven及其安装和使用.7z

提供了maven的驱动，setting模板和idea使用指南。详细介绍了maven的安装及配置过程，idea内使用maven创建工程的流程。

2020-05-07

Azkaban任务调度与 Atlas 元数据血缘监控时的问题

2020-08-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除