![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
shayuwei
永远年轻,永远热泪盈眶。
展开
-
Hive任务优化、参数调优
文章目录一、 控制hive任务中的map数:如何合并小文件,减少map数?如何适当的增加map数?二、 控制hive任务的reduce数:1. Hive自己如何确定reduce数:2. 调整reduce个数方法一3. 调整reduce个数方法二4. reduce个数并不是越多越好;5. 什么情况下只有一个reduce;三、 hive参数调优1. Map Reduce数量相关2. 执行计划相关3....转载 2019-03-28 22:01:05 · 1334 阅读 · 0 评论 -
Azkaban 实战演示
启动Azkaban使开始的程序在后台运行启动Azkaban Web 服务器[yao@master azkaban-web-2.5.0]$ nohup bin/azkaban-web-start.sh> log.log 2>&1 &[1] 22591启动 Azkaban executor 执行服务器[yao@master azkaban-execu...原创 2019-03-27 16:32:58 · 244 阅读 · 0 评论 -
基于Hadoop-2.7.7、MySQL-5.7的Azkaban 2.5.0 安装文档
文章目录Azkaban2.5.0 安装一、Azkaban 运行模式二、Azkaban2.5.0 安装详解2.1 下载安装包2.2 上传并解压2.3 创建 Azkaban数据库2.4 将azkaban sql表结构导入MySQL2.5 创建 jetty ssl配置2.6 Azkaban Web 服务器配置2.6.1 修改配置文件 azkaban.properties2.6.2 用户配置 azkaba...原创 2019-03-27 10:52:26 · 207 阅读 · 0 评论 -
Hive(5)高级应用
视图逻辑窗口、视图特性只有逻辑视图,没有物化视图视图只能查询,不能load/insert数据视图在创建的时候,只是保存了一份元数据,当查询视图的时候,才开始执行视图对应的那些子查询优点通过引入视图机制,用户可以将注意力集中在其关心的数据上(而非全部数据),这样就大大提高了用户效率与用户满意度,而且如果这些数据来源于多个基本表结构,或者数据不仅来自于基本表结构,还有一部分...原创 2019-03-26 15:54:11 · 410 阅读 · 0 评论 -
HA集群安装部署
文章目录1 运行环境1.1 软件环境1.2 浏览器要求2 安装准备2.1 准备虚拟机2.2 修改主机名2.3 关闭防火墙2.4 修改主机名列表2.5 配置时间同步2.5.1 配置自动时钟同步2.5.2手动同步时间2.6 配置免秘钥登录2.7 安装jdk3 安装zookeeper3.1 准备安装包3.2 修改配置文件3.3 创建相关目录3.4 分发zookeeper软件包3.5 修改myid文件3....原创 2019-03-29 18:32:08 · 1545 阅读 · 2 评论 -
Hive(1)初识Hive
Hive概述hive是什么?基于Hadoop、数据仓库、结构化、类SQL、MapReduce任务架构基本组成(用户接口)CLI:是一个和Hive通过命令行交互的接口。thrift server(JDBC/ODBC):提供了可以从不同编程语言编写的客户端访问Hive的接口,支持身份验证和多用户并发访问。Web UIHive Web Interface):Web接口,可以通过浏...原创 2019-03-22 18:16:34 · 226 阅读 · 0 评论 -
基于Hadoop-2.7.7、MySQL5.7的Hive安装文档
文章目录1 上传安装包2 安装MySql2.1 净化MySQL环境2.1.1 检查是否安装过mysql2.1.2 分别卸载2.1.3 删除MySQL相应文件2.2 安装MySQL2.2.1 下载MySQL的yum源2.2.2 查看下载源中包含的rpm包2.2.3 安装rpm包2.2.4 安装MySQL2.2.5 获取临时密码2.2.6 设置密码2.3 配置MySQL2.3.1 创建数据库2.3.2...原创 2019-03-22 18:15:41 · 1232 阅读 · 0 评论 -
Hadoop(4)MapReduce编程模型和YARN平台
文章目录MapReduce编程模型wordcount词频统计WordCount编程实例shuffleYARN平台MapReduce编程模型MapReduce是一种可用于数据处理的编程模型。该模型比较简单,但用于编写有用的程序并不简单。Hadoop可以运行由各种语言编写的MapReduce程序。例如:Java、Python和C++语言等。最重要的是,MapReduce程序本质上是并行运行的,因此...原创 2019-03-22 18:14:38 · 223 阅读 · 0 评论 -
20190319-利用MapReduce去重和排序
1 分析数据去重 Distinct原文件内容2015-3-1a2015-3-2b2015-3-1a2015-5-4d目标结果2015-3-1a2015-3-2b2015-5-4dMyMapper.javapackage DataDistinct;import java.io.IOException;import org.apache.hadoop.io.Text;...原创 2019-03-22 18:13:51 · 594 阅读 · 0 评论 -
Hadoop(3)HDFS详解
文章目录核心设计数据块数据复制HDFS副本存放策略Hadoop心跳机制安全模式原理剖析HDFS工作机制NameNode工作机制DataNode工作机制SecondaryNamenode工作机制HDFS的HA运行机制核心设计数据块HDFS上最基本的存储单位,默认大小128M,小于一个块大小的文件不会占据整个块的空间,快非常适合用于数据备份进而提供数据容错能力和可用性。数据复制HDFS为了...原创 2019-03-22 18:13:04 · 500 阅读 · 0 评论 -
基于CentOS 7系统的Hadoop-2.7.7版本双节点集群搭建
文章目录1 基于 VMware workstations 的CentOS7安装1.1 安装虚拟机1.2 安装CentOS7操作系统2 Linux系统配置2.1 上传安装包2.2 配置时钟同步2.2.1 查看时间2.2.2 时间不一致的解决办法2.3 配置主机名2.3.1 命令设置主机名永久有效2.3.2 配置文件2.4 关闭防火墙2.4.1 关闭防火墙2.4.2 禁止firewall开机启动2.4...原创 2019-03-22 18:12:01 · 376 阅读 · 0 评论 -
Hadoop(2)初识HDFS
HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。设计思想分而...原创 2019-03-22 18:10:59 · 243 阅读 · 0 评论 -
Hadoop(1)概述
Apache开源软件基金会开发的,运行于大规模普通服务器上的,大数据存储、计算、分析的,分布式存储系统和分布式运算框架组成1.分布式存储系统HDFS(Hadoop Distributed File System)namenode管理者,在主节点。存放元数据信息:文件大小、位置、块、索引等datanode在从节点,存数据的位置,是数据落地的地方存放2.资源管理系统YAR...原创 2019-03-22 18:09:49 · 160 阅读 · 0 评论 -
Hive(4)Hive中的文件
文件压缩压缩模式1.为什么要压缩在Hive中对中间数据或最终数据做压缩,是提高数据吞吐量和性能的一种手段。对数据做压缩,可以大量减少磁盘的存储空间,比如基于文本的数据文件,可以将文件压缩40%或更多。同时压缩后的文件在磁盘间传输和I/O也会大大减少;当然压缩和解压缩也会带来额外的CPU开销,但是却可以节省更多的I/O和使用更少的内存开销。2.压缩模式评价压缩比压缩比越高,压缩后文件越...原创 2019-03-25 17:48:52 · 575 阅读 · 0 评论 -
基于CentOS 7的Hadoop-2.7.7集群搭建手册
文章目录1 基于 VMware workstations 的CentOS7安装1.1 安装虚拟机1.2 安装CentOS7操作系统2 Linux系统配置2.1 上传安装包2.2 配置时钟同步2.2.1 查看时间2.2.2 时间不一致的解决办法2.3 配置主机名2.3.1 命令设置主机名永久有效2.3.2 配置文件2.4 关闭防火墙2.4.1 关闭防火墙2.4.2 禁止firewall开机启动2.4...原创 2019-04-09 18:55:21 · 5155 阅读 · 16 评论