自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

玩转大数据

hadoop、MapReduce、HDFS、Hive、Sqoop

  • 博客(22)
  • 资源 (2)
  • 收藏
  • 关注

原创 Flink Evictors(驱逐器)最全解释

Flink关于Evictors(驱逐器)的解释不多,因为默认是在element进入Window窗口聚合之前进行移除数据,这个能够满足绝多大多数应用场景。但对于element进入Window窗口聚合后并在Trigger触发计算操作之前移除数据, 即:Evictor类中的第2个方法evictAfter(),会在什么样的场景用到,这部分解释几乎是空白,因此,在此进行一个解释,希望能帮助到有需要的Flink开发者。

2022-04-03 15:54:29 2611

原创 jsp的内置对象

1、jsp的内置对象是指在jsp页面上可以直接使用的对象。有如下9个:内置对象类型outJspWriterrequestHttpServletRequestresponseHttpServletResponsesessionHttpSessionexceptionThrowablepageServlet(this)configServletConfigapplicationServletContextpageContext

2020-11-22 16:52:41 325 1

原创 关于路径的问题

在java编程中,路径可以分为3类:相对路径、绝对路径和内部路径。1、相对路径(1)当前路径:./ 或者 什么都不写(2)上一级路径:…/2、绝对路径(1)带协议和主机的(2)不带协议和主机的:/项目名/资源3、内部路径不带协议和主机的绝对路径去掉项目名即为内部路径,适用场景包括:请求转发(request)、静态包含(jsp)、动态包含...

2020-11-22 15:24:36 1823

原创 Flume的安装和操作详解

ls | grep rpmsudo rpm -ivh telnet-server-0.17-59.el7.x86_64.rpmsudo rpm -ivh telnet-0.17-59.el7.x86_64.rpmnetstat -an | grep 44444a2.sources.r2.shell = /bin/bash -c意思是执行语句H24小时制h12小时制

2020-05-27 17:16:29 427

原创 Sqoop安装、配置和操作详解

一、安装和配置Sqoop1、开启Zookeeper2、开启集群服务3、配置文件:sqoop-env.sh,如下:#Set path to where bin/hadoop is availableexport HADOOP_COMMON_HOME=/opt/modules/cdh5.3.6/hadoop-2.5.0-cdh5.3.6#Set path to where hadoop-*-core.jar is availableexport HADOOP_MAPRED_HOME=/opt/m

2020-05-22 11:57:15 1064

原创 Hive数据仓库的具体操作

查看表的详细信息:hive > desc formatted t1;

2020-05-21 21:17:18 944

原创 Linux中查看文件编码格式及文件编码转换详解

一、查看文件编码格式在Vim中可以直接查看文件编码::set fileencoding即可显示文件编码格式。二、文件编码转换vim 使用vim直接进行文件的编码转换:set fileencoding=utf-8

2020-05-20 21:01:25 427

原创 Hive的部署与安装详解

一、基本概念1、数据库与数据仓库数据库:mysql、oracle、sqlserver、DB2、sqlite、MDB;数据仓库:Hive,是MR的客户端,也就是说不必要每台机器都安装部署Hive。2、Hive的特性操作接口是采用SQL语法,HQL,避免了写MapReduce的繁琐过程。3、Hive体系结构(1)Client:终端命令行,其中,JDBC不常用,非常麻烦(相对于前者)(2)metastore:原本的数据集和字段名称以及数据信息之间的双射关系,目前是存储在Mysql中(3)Serv

2020-05-19 22:30:46 952

原创 YARN工作机制详解

YARN工作机制图如下(0)Mr程序提交到客户端所在的节点(1)yarnrunner向Resourcemanager申请一个application。(2)rm将该应用程序的资源路径返回给yarnrunner(3)该程序将运行所需资源提交到HDFS上(4)程序资源提交完毕后,申请运行mrAppMaster(5)RM将用户的请求初始化成一个task(6)其中一个NodeManager领...

2020-05-08 11:36:25 416

原创 MapReduce程序运行流程详解

一、MapReduce整体运行流程流程示意图如下:(1)在MapReduce程序读取文件的输入目录上存放相应的文件。(2)客户端程序在submit()方法执行前,获取待处理的数据信息,然后根据集群中参数的配置形成一个任务分配规划。(3)客户端提交job.split、jar包、job.xml等文件给yarn,yarn中的resourcemanager启动MRAppMaster。(4)MR...

2020-05-07 21:14:27 1618

原创 MapReduce自定义部分详解

1、自定义InputFormat重写RecorderReader2、自定义Mapper3、自定义Partitioner分区4、自定义Key.compareTo排序自定义bean对象,实现comparable接口,重写compareTo方法5、自定义Combiner继承Reduce6、...

2020-05-07 18:20:19 703

原创 InputFormat数据切片机制、源代码详解及自定义InputFormat

在MapReduce中,MapTask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度。而一个job的map阶段MapTask并行度(个数),由客户端提交job时的切片个数决定,说白了,有多少个切片,就起多少个MapTask任务。如下图所示:下面,就InputFormat数据切片机制进行详细的说明。一、job提交数据切片的节点以WordCount的Driver程序(W...

2020-05-07 16:31:04 491

原创 HDFS中的快照管理和回收站详细教程

一、快照管理快照相当于对目录做一个备份。并不会立即复制所有文件,而是指向同一个文件。当写入发生时,才会产生新文件。1、基本语法(1)hdfs dfsadmin -allowSnapshot 路径 (功能描述:开启指定目录的快照功能)(2)hdfs dfsadmin -disallowSnapshot 路径 (功能描述:禁用指定目录的快照功能,默认是禁用)(3)hdfs dfs -cr...

2020-04-28 15:16:08 760

原创 HDFS中Hadoop存档(针对小文件存储)

每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效。因为大量的小文件会耗尽namenode中的大部分内存。但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如,一个1MB的文件以大小为128MB的块存储,使用的是1MB的磁盘空间,而不是128MB。Hadoop存档文件或HAR文件,是一个更高效的文件存档工...

2020-04-28 14:15:08 288

原创 HDFS中DataNode工作机制详解

HDFS集群包括,NameNode和DataNode以及Secondary Namenode。NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息;DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本。一、DataNode工作机制一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一...

2020-04-28 11:55:56 2147

原创 HDFS中NameNode、Secondary NameNode介绍及工作机制详细教程

HDFS集群包括,NameNode和DataNode以及Secondary Namenode。NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息;DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本,Secondary NameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。一、N...

2020-04-28 10:06:18 3088 1

原创 windows设置通过主机名访问网站

在日常开发过程中,我们经常需要通过主机名直接访问网站,其实设置很简单,一共分为2步。Step1 打开hosts文件用记事本或者Nodepad++打开,路径为C:\Windows\System32\drivers\etc\hostsStep2 修改配置文件,将ip和主机名添加到下方# This file contains the mappings of IP addresses to hos...

2020-04-27 15:58:17 2179

原创 HDFS的操作教程(命令行、API和IO流)

一、HDFS命令行操作1、基本语法[root@hadoop102 hadoop-2.7.2]# bin/hadoop fs 具体命令2、常用命令实操(1)-help:输出这个命令参数[root@hadoop102 hadoop-2.7.2]# bin/hdfs dfs -help rm(2)-ls: 显示目录信息[root@hadoop102 hadoop-2.7.2]# had...

2020-04-27 11:20:35 285

原创 搭建hadoop集群的详细教程

这里,以搭建3台hadoop服务器的集群为例(更多台的原理是一样的),首先需准备好3台纯净的Linux服务器(用虚拟机克隆即可),并设置好相应的主机名和ip,具体教程见搭建hadoop运行环境的详细教程这里不再赘述。需要注意,为了方便演示,3台服务器的主机名假定分别为hadoop102、hadoop103、hadoop104,企业中真实使用的主机名会比这个要长。1、集群部署规划ha...

2020-04-26 17:09:30 303

原创 搭建hadoop运行环境的详细教程

准备一台Linux服务器,用VMware虚拟机即可。1、虚拟机网络模式设置为NAT2、克隆虚拟机(可省略)假设,已经存在一台“hadoop101”的机器,现需新建一个“hadoop102”的机器,并在这台上搭建hadoop运行环境,所以需要去克隆“hadoop101”这台机器,如果是在当前机器(“hadoop101”)搭建,则该步可省略。3、配置静态ip配置这台服务器的IP地址,以配置i...

2020-04-26 10:26:56 421

原创 制作本地yum源的详细教程

YUM源虽然可以简化我们在Linux上安装软件的过程,但是生成环境通常无法上网,不能连接外网的YUM源,说以接就无法使用yum命令安装软件了。为了在内网中也可以使用yum安装相关的软件,就要配置yum源。YUM源其实就是一个保存了多个RPM包的服务器,可以通过http的方式来检索、下载并安装相关的RPM包1、准备工作准备一台Linux服务器,并准备镜像文件,例如:CentOS-6.8-x86...

2020-04-25 21:17:21 3785

原创 关联网络yum源

关联网络yum源这里,以关联163的yum仓库为例。1、前期文件准备(1)前提条件linux系统必须可以联网;(2)在Linux环境环境中访问该网络地址:http://mirrors.163.com/.help/centos.html,在使用说明中点击CentOS6->再点击保存;(3)查看文件保存的位置,在打开的终端中输入命令“pwd”,就可以找到文件的保存位置。2、替换本地y...

2020-04-25 19:47:35 206

hadoop-2.7.2.rar

hadoop-2.7.2安装包,解压至/opt/module文件夹 启动HDFS只需要敲入命令行:sbin/hadoop-daemon.sh start|stop namenode|datanode|secondarynamenode 启动YARN: sbin/yarn-daemon.sh start|stop resourcemanager|nodemanager

2020-04-27

hadoop-2.7.2-src.rar

该资源为hadoop-2.7.2-src 源代码,其中包括了hadoop-2.7.2这个版本的所有开源代码,方便广大大数据开发同学的深入学习。

2020-04-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除