hadoop
文章平均质量分 72
未来世界~未来之星
这个作者很懒,什么都没留下…
展开
-
Hive 核心知识点
--初始化Hive的Metastore命令bin/ schematool -dbType mysql -initSchema --hive启动--1 bin/hive--启动hive需要先启动hadoop---先hiveserver2--后 bin/beeline -u jdbc:hive2://localhost:10000--关闭防火墙systemctl stop firewalld.service--hdfs文件授权hadoop fs -chmod 777 /tmp/hadoop原创 2021-10-29 20:32:07 · 814 阅读 · 0 评论 -
yarn知识点
一、YARN主要负责集群的管理和调度,支持主从架构,主节点最多可以有2个,从节点可以有多个。其中:ResourceManager是主节点,主要负责集群资源的分配和调度。NodeManager是从节点,主要负责当前机器资源管理。二、yarn主要管理内存和CPU这两种资源类型三、YARN中支持三种调度器1:FIFO Scheduler :先进先出(first in,first out)调度策略2:Capacity Scheduler:FIFO Scheduler的多队列版本3:FairSched原创 2021-10-23 11:16:22 · 869 阅读 · 0 评论 -
Mapreduce
一、hadoop序列化的特点:1、紧凑:高效使用存储空间2、快速:读写数据的额外开销小3、可扩展:随着通信协议的升级而升级4、互操作:支持多语言的交互二、hadoop小文件处理方式:每一个小文件都是一个Block,都会产生一个InputSplit,最终每一个小文件都会产生一个map任务。解决方案:选择一个容器,将这些小文件组织起来统一存储,HDFS提供了两种类型的容器,分别是SequenceFile 和 MapFile。SequenceFile 其实可以理解为把很多小文件压缩成一个大的压缩包了原创 2021-10-20 14:08:23 · 121 阅读 · 0 评论 -
HDFS知识点
一、HDFS支持主从结构,NameNode支持多个,DataNode也支持多个二、NameNode主要包含一下文件:fsimage、edits、seen_txid、VERSION三、查看fsimage文件:hdfs oiv -p XML -i 文件名 -o四、secondarynamenode 这个进程就是负责定期把edits中的内容合并到fsimage中,这个合并操作称为checkpoint,在合并的时候会对edits中的内容进行转换,生成新的内容保存到fsimage文件中五、Block默认是原创 2021-10-15 09:40:54 · 119 阅读 · 0 评论 -
Hadoop-HDFS
第1章 HDFS概述1.1 HDFS产出背景及定义1.2 HDFS优缺点1.3 HDFS组成架构1.4 HDFS文件块大小(面试重点)第2章 HDFS的Shell操作(开发重点)1.基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。2.命令大全[atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs[-appendToFile … ][-cat [-ignoreCrc] …][原创 2021-08-17 16:10:16 · 410 阅读 · 0 评论 -
Hadoop入门
Hadoop的优势原创 2021-08-13 11:05:51 · 478 阅读 · 0 评论 -
Hive应用
Hive数据仓库分层按照数据流入流出的过程,数据仓库架构可分为三层——源数据(ODS)、数据仓库(DW)、数据应用(APP)Hive介绍Hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类似SQL的查询功能Hive可以存储很大量的数据集,可以直接访问存储在Apache Hdfs或者其他数据库存储系统中的文件Hive支持Mapreduce、Spark、Tez这三种分布式计算引擎Hive架构Hive计算引擎Hive安装启动cd原创 2021-08-06 21:02:46 · 320 阅读 · 0 评论 -
HDFS的基本命令
HDFS分布式文件系统Hadoop:HDFS(分布式文件系统)解决海量数据存储MAPREDUCE (分布式运算编程框架)解决海量数据计算yarn(作业调度和集群资源管理框架)解决资源****任务调度Hadoop框架内容HDFS模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据SecondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理DataNode:集群当中的从节点,主要用于存储集群当中的各种数据数据计算核心模块 yarn:Resourc原创 2021-08-05 21:17:32 · 193 阅读 · 0 评论