梧桐1233-CSDN博客

原创 Hive学习笔记（二）Hive安装部署

一、安装部署Hive1.2 安装Hive把 apache-hive-3.1.2-bin.tar.gz 上传到 linux 的 /opt/software 目录下将 /opt/software/ 目录下的 apache-hive-3.1.2-bin.tar.gz 到 /opt/module/ 目录下面 tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /opt/module/修改解压后的目录名称为hivemv apache-hive-3.1.2-bin/ /op

2021-11-23 19:42:12 1569 1

原创 Hive学习笔记（一）Hive概述

一、Hive基本概念1.1Hive概述Hive是由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。Hive处理的数据存储在HDFSHive分析数据底层的实现是MapReduce执行程序运行在Yarn上结构化数据文件和表的映射关系以元数据的形式存储在数据库中（Derby或MySQL）1.2 Hive 架构原理1）用户接口：ClientCLI（co

2021-11-23 19:40:26 225

原创 Hadoop学习笔记（十）ZooKeeper

一、Zookeeper入门1.1 概述 Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。 Zookeeper从设计模式来理解：是一个人基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察这的注册，一旦这些数据的状态发生变化，Zookeeper 就将负责通知已经在Zookeeper 上注册的那些观察者做出相应的反应。 Zookeeper = 文件系统 + 通知机制1.2 Zookeeper的特点

2021-11-23 19:36:22 1127

转载 Hadoop学习笔记（九）Shuffle 工作流程

Shuffle 工作流程 Shuffle 描述着数据从MapTask输出到ReduceTask输入的这段过程。shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下，ReduceTask需要跨节点去拉取其它节点上的MapTask结果。这一过程将会产生网络资源消耗和内存，磁盘IO的消耗。通常shuffle分为两部分：Map 阶段的数据准备和 Reduce 阶段的数据拷贝

2021-11-18 15:02:15 3977

原创 Hadoop学习笔记（八）InputFormat数据输入

InputFormat数据输入一、切片与MapTask并行度决定机制MapReduce的数据流为：MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。InputFormat会在数据提交前对数据进行切片处理。**数据块：**Block是HDFS物理上把数据分成一块一块。**数据切片：**数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。不同的InputFormat对象会有不同的分片策略，进而导致不同的分片结果，从而影响MapTask的并

2021-11-18 15:00:51 268

原创 Hadoop学习笔记（七）Job提交流程源码分析

Job提交流程源码分析1 从 job.waitForCompletion 开始，进入waitForCompletion（）开始进行提交。2 在waitForCompletion中进行状态的确认。共有两种状态：DEFINE和RUNING, DEFINE状态进入submit（）中。 RUNING状态表示集群此时正在运行，无法进行提交。3 再次确认状态再次确认状态为DEFINE，同时在connect（）中会根据本地模式或是远程集群生成不同的对象，若是本地则生成 LocalJobRunner

2021-11-16 20:23:25 1030

原创 Hadoop学习笔记（六）WordCount程序实例

WordCount程序实例需求在给定的文本文件中统计输出每一个单词出现的总次数（1）文本数据：hello.txtss sscls clsjiaobanzhangxuehadoop （2）期望输出数据banzhang 1cls 2hadoop 1jiao 1ss 2xue 11、先创建Maven工程并添加所需依赖：<dependencies> <dependency> <groupId>junit

2021-11-16 20:15:43 1236

原创 Hadoop学习笔记（五）MapReduce概述

Hadoop学习笔记（五）MapReduce概述一、MapReduce概述1.1 MapReduce定义 MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 Hadoop 集群上。1.2 MapReduce优缺点优点:1、MapReduce 易于编程它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程

2021-11-16 20:13:15 100

原创 Hadoop学习笔记（四）HDFS部分下

Hadoop学习笔记（四）HDFS部分下一、HDFS 的数据流1.1 HDFS的写数据流程客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件，NameNode 检查目标文件是否已存在，父目录是否存在。NameNode 返回是否可以上传。客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。NameNode 返回 DataNode 节点，假设分别为 dn1、dn2、dn3。客户端通过 FSDataOutputStream 模块请

2021-11-15 20:07:04 1318

原创 Hadoop学习笔记（三）HDFS部分上

Hadoop——HDFS部分上一、HDFS概述1.1 HDFS定义 HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。 HDFS的使用场景：适合一次性写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。1.2 HDFS优缺点优点： 1、高容错性。数据自动保存多个副本。它通过增加副本的形式，提高容错率

2021-11-15 20:00:52 632

原创 Hadoop学习笔记（二）完全分布式运行模式

Hadoop入门——完全分布式与运行模式一、SSH无密登录配置再 Hadoop 的使用过程中，无论是服务期间传输数据，还是快速启动集群的各个模块，都需要用到SSH协议，若是每次使用都输入密码，将大大降低效率。所以必须配置 SSH 无密登录。 SSH 基本语法：ssh [另一台服务器的IP地址]免密登录原理1、生成公钥和私钥ssh-keygen -t rsa如果不做其他配置，将会在用户目录的 .ssh 文件夹下生成两个文件id_rsa（私钥）和id_rsa.pub（公钥）2、将

2021-11-15 19:56:49 1053

原创 Hadoop入门以及环境部署

Hadoop入门与环境配置一、大数据概念1、大数据概念大数据（Big Data）：指无法在一定时间范围内用常规软件工具进行捕获、管理和处理的数据集合，是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决海量数据的存储和海量数据的分析计算问题。大数据的特点为：大量（Volume）、高速（Velocity）、多样（Variety）、低密度价值（Value）。二、从Hadoop框架讨论大数据生态2.1Hadoop是什么？Hadoo

2021-11-11 16:18:44 277

qq_40432544的博客