hadoop
文章平均质量分 85
hadoop相关内容
章鱼哥TuNan&Z
追求幸福,探索未知,不卑不亢,沉稳可靠。所有技能都会因为不用而退化。避免这种损失的正确对策是使用一些类似于飞行员训练中用到的飞行模拟器那样的东西。这种模拟器让飞行员能够持续地操练所有很少用到但必须保证万无一失的技能。明智的人会终身操练他全部有用然而很少用的上的、大多数来自其他学科的技能,并把这当做事一种自我提高的责任。如果他减少了他操练的技能的种数,进而减少了他掌握的技能的种数,那么他自然会陷入“铁锤人倾向”引起的错误之中。他的学习能力也会下降,因为他需要用来理解新经验的理论框架已经出现了裂缝。对于一个善于思考的人而言,把他的技能编排成一张检查清单,并常常将这张清单派上用场,也是很重要的。
展开
-
在HUE创建Workflows 执行hql
在HUE创建Workflows 执行hql1、先准备hql创建存放hql的路径点击File browser点击右侧的new 创建路径:/user/hive/work/hiveSQLRun/Student.hql2、创建workflow点击workflows-》Editors-》Workflows -》点击create3、设置workflow4、设置用户及密码...原创 2021-09-07 17:01:21 · 275 阅读 · 0 评论 -
自动化调度workflow
自动化调度workflow1、worksflows-》Editors-》Coordinators2、对sche进行配置3、submit之后设置开始日期和结束日期原创 2021-09-07 17:00:40 · 175 阅读 · 0 评论 -
sqoop详解
sqoop详解一.sqoop的简单概论1.sqoop产生的原因:A. 多数使用hadoop技术的处理大数据业务的企业,有大量的数据存储在关系型数据中。B. 由于没有工具支持,对hadoop和关系型数据库之间数据传输是一个很困难的事。依据以上的原因sqoop产生的。\2. sqoop的介绍sqoop是连接关系型数据库和hadoop的桥梁,主要有两个方面(导入和导出):A. 将关系型数据库的数据导入到Hadoop 及其相关的系统中,如 Hive和HBaseB. 将数据从Had转载 2021-07-13 10:28:22 · 10047 阅读 · 3 评论 -
数据仓库
数据仓库1. 目标理解OLTP和OLAP的区别理解数据仓库的特点理解数据仓库系统架构理解数仓的指标与维度理解星型模型和雪花模型掌握数据仓库的分层方法2. 数据仓库介绍2.1数据仓库概念 数据仓库概念创始人在《建立数据仓库》一书中对数据仓库的定义是:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、数据集成的(Integrated)、相对稳定(非易失)的(Non-Volatile)、反应历史变化(时变)(Time Variant) 的数据原创 2021-03-21 10:58:20 · 838 阅读 · 0 评论 -
数仓工具
数仓工具1、ETL1.1ETL介绍 ETL(Extract-Transform-Load)是将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,ETL较常用的数据仓库,从数据源抽取出来所需要的原始数据,经过数据清洗,最终将清洗后的数据加载到数据仓库中去。1.2数据抽取 数据抽取是从数据源抽取需要的原始数据,抽取的方式多种多样,要根据数据源的特点来确定,通常有如下几种数据抽取的方式: 1、从关系数据抽取数据 通过OLTP系统采用原创 2021-03-20 17:29:34 · 2198 阅读 · 1 评论 -
YARN
YARN一、回顾Shuffle功能与过程功能分区:有多个Reduce的情况下,决定了Map输出的每一条数据会进入哪个Reduce默认:HashPartition自定义分区:Partitioner / getPartition当默认分区规则不能满足需求数据分配不均衡排序:为了做分组,也可以利用MapReduce自己实现的排序来完成需求中的排序默认:调用K2自带的compareTo方法自定义排序:WritableComparator / compa原创 2021-03-09 01:15:22 · 206 阅读 · 1 评论 -
MapReduce Shuffle 过程详解
MapReduce Shuffle 过程详解一、回顾Shuffle功能分区问题:MapReduce中Reduce的设计本身是为了实现聚合,所以Reduce进程默认只会启动一个单个ReduceTask如果处理的数据量过多,会导致性能较差,或者资源不足导致程序运行失败功能:每个分区就是一个ReduceTask进程,允许启动配置多个分区,多个ReduceTask通过多个分区来并行处理数据,通过分布式Reduce过程来解决资源和性能问题应用:判断ReduceTask处理的原创 2021-03-08 21:50:59 · 515 阅读 · 0 评论 -
MapReduce编程深入
MapReduce编程深入一、回顾MapReduce的功能以及应用场景Hadoop1.xHDFSMapReduce v1:分布式计算框架分布式程序分布式资源主从架构:JobTracker,TaskTackerHadoop2.xHDFSMapReduce v2:分布式编程模型一套API从逻辑上定义数据处理的过程YARN:分布式资源管理ResourceManagerNodeManager负责根据逻辑上代码定义的处理过程而使用资源去运行实现这个过程原创 2021-03-08 14:15:04 · 147 阅读 · 0 评论 -
MapReduce入门
MapReduce入门一、回顾HDFS架构分布式普通主从架构主:管理从:执行公平架构每个节点都是公平节点Zookeeper本质:将多台机器的文件系统从逻辑上合并为一个整体节点NameNode:主:管理管理集群:DataNode管理接客管理元数据DataNode:从:存储每个DataNode负责管理自己所在节点的文件系统负责接收NameNode的读写任务分配:数据写入DataNode所在的Linux文件系统的dfs.datanode.da原创 2021-03-06 23:36:20 · 128 阅读 · 0 评论 -
MapReduce分布式计算
一、MapReduce分布式计算1、MapReduce计算模型介绍1.1理解MapReduce思想 MapReduce思想在生活中处处可见。或多或少都成接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。 Map负责"分",即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。 Reduc原创 2021-03-05 23:35:22 · 1907 阅读 · 0 评论 -
《笔记1》HDFS深入及Hadoop HA
HDFS深入及Hadoop HA带图答疑QQ:2338247381一、复习基础课程大数据本质:就是利用一系列大数据软件工具开发程序对数据进行处理,从数据中提取相关价值信息大数据软件:Hadoop、Zookeeper、Hive、Spark、Flink类似于:Excel、Word数据:种类多,数据量大(传统的方式不行)处理:开发程序(java还是很重要的)Java为什么?大数据的大部分软件都是Java源代码开发的学习、维护使用Java语言开发数据处理程原创 2021-03-03 18:19:23 · 154 阅读 · 3 评论 -
HDFS分布式文件系统
HDFS分布式文件系统1.HDFS概述在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统 。 HDFS(Hadoop Distributed File System)是Apache Hadoop项目的子项目。Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统.分布式文件系统解原创 2021-03-03 11:45:10 · 508 阅读 · 0 评论 -
思维导图:Hadoop01
Hadoop011:大数据导论1:什么是大数据1:大数据是随着互联网的发展而产生的2:大数据主要解决两个问题:1:海量数据的存储文件 HDFS HBase Kudu2: 海量数据的计算问题 MapReduce Spark2: 常见的数据的计量单位1Byte = 8bit 1K(千)= 1024Byte 1MB(兆)=1024K 1G(吉) = 1024M1T(太)=1024G 1P(拍)=1024T 1E(艾)=1024P 1Z(泽).原创 2021-02-26 14:48:01 · 723 阅读 · 0 评论 -
Hadoop编译文档
Hadoop编译文档1. 准备linux环境准备一台linux环境,内存4G或以上,硬盘40G或以上,我这里使用的是Centos7.7 64位的操作系统(注意:一定要使用64位的操作系统),需要虚拟机联网,关闭防火墙,关闭selinux,安装好JDK8。根据以上需求,只需要将node1再克隆一台即可,命名为node4,专门用来进行Hadoop编译。2. 安装maven这里使用maven3.x以上的版本应该都可以,不建议使用太高的版本,强烈建议使用3.0.5的版本即可将maven的安装包上传到原创 2021-02-26 10:32:52 · 108 阅读 · 0 评论 -
Hadoop技术
Hadoop技术一、Hadoop介绍Hadoop是Apache旗下的一个用java语言实现开源软件的框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。狭义上说,Hadoop指Apache这款开源框架,它的核心组件有:HDFS(分布式文件系统):解决海量数据存储 MAPREDUCE(分布式运算编程框架):解决海量数据计算 YARN(作业调度和集群资源管理的框架):解决资源任务调度广义上来说,Hadoop通常是指一个更广泛的概原创 2021-02-25 22:35:06 · 871 阅读 · 0 评论 -
大数据课程导论
一、大数据课程导论1. 大数据概念最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,大数据是当前很热的一个词。这几年来,云计算、继而大数据,成了整个社会的热点,大数据究竟是什么东西?有哪些相关技术?对普通人的生活会有怎样的影响?我们来一步步弄清这些问题。在讲什么是大数据之前,我们首先需要厘清数据的基本概念。数据数据是可以获取和存储的信息,直观而言,表达某种客观事实的数值是最容易被人们识别的数据(因为那是“数”)。但实际上,人类的一切语言文字、图形图画、音像记录,所有感官可以察觉的原创 2021-02-25 14:34:30 · 4431 阅读 · 0 评论