Hadoop
森林森
java学习
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HBase原理-介绍
HBase原理 HBase读数据流程 HBase读操作 1)首先从zk找到meta表的region位置,然后读取meta表中的数据,meta表中存储了用户表的region信息 2)根据要查询的namespace、表名和rowkey信息。找到写入数据对应的region信息 3)找到这个region对应的regionServer,然后发送请求 4)查找对应的region 5)先从memstore查找数据,如果没有,再从BlockCache上读取 HBase上Regionserver的内存分为两个部分 一部分原创 2020-10-19 11:35:53 · 448 阅读 · 0 评论 -
HBase shell 基本操作
HBase shell 基本操作 进入Hbase客户端命令操作界面 hbase shell 查看帮助命令 help 查看当前数据库中有哪些表 list 创建一张lagou表, 包含base_info、extra_info两个列族 create 'lagou', 'base_info', 'extra_info' 或者 create 'lagou', {NAME => 'base_info', VERSIONS => '3'},{NAME => 'extra_info',VERSI原创 2020-10-19 10:42:04 · 963 阅读 · 0 评论 -
HBase 简介
HBase是什么 HBase 基于 Google的BigTable论文而来,是一个分布式海量列式非关系型数据库系统,可以提供 超大规模数据集的实时随机读写。 如下MySQL存储机制,空值字段浪费存储空间 如果是列存储的话,可以这么玩… rowkey:1 name:小明 rowkey:1 age:23 rowkey:1 job:学生 rowkey:2 name :小红 rowkey:2 salary:10w rowkey:2 job:律师 … 列存储的优点: 1)减少存储空间占用。 2)支持好多列 H原创 2020-10-19 10:14:59 · 267 阅读 · 1 评论 -
YARN资源调度
YARN架构 ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度; NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令; ApplicationMaster(am):数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。 Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、原创 2020-10-16 11:04:25 · 368 阅读 · 0 评论 -
MapReduce原理分析
MapReduce原理分析 MapTask运行机制详解 详细步骤: 首先,读取数据组件InputFormat(默认TextInputFormat)会通过getSplits方法对输入目录中文件进行逻辑切片规划得到splits,有多少个split就对应启动多少个MapTask。split与block的对应关系默认是一对一。 将输入文件切分为splits之后,由RecordReader对象(默认LineRecordReader)进行读取,以\n作为分隔符,读取一行数据,返回<key,value>。原创 2020-10-16 10:47:05 · 832 阅读 · 0 评论 -
MapReduce编程框架-简述
MapReduce编程框架 MapReduce思想 MapReduce思想在生活中处处可见。我们或多或少都曾接触过这种思想。MapReduce的思想核心是分而治之,充分利用了并行处理的优势。 即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。 MapReduce任务过程是分为两个处理阶段: Map阶段:Map阶段的主要作用是“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。 Map阶段的这些任务可以并行计算,彼此间没有依赖关系。 Reduce阶段:Reduce阶段的主要作用原创 2020-10-15 17:51:53 · 1316 阅读 · 0 评论 -
HDFS NN与2NN
HDFS元数据管理机制 问题1:NameNode如何管理和存储元数据? 计算机中存储数据两种:内存或者是磁盘 元数据存储磁盘:存储磁盘无法面对客户端对元数据信息的任意的快速低延迟的响应,但是安全性高 元数据存储内存:元数据存放内存,可以高效的查询以及快速响应客户端的查询请求,数据保存在内 存,如果断点,内存中的数据全部丢失。 解决方案:内存+磁盘;NameNode内存+FsImage的文件(磁盘) 新问题:磁盘和内存中元数据如何划分 两个数据一模一样,还是两个数据合并到一起才是一份完整的数据呢? 一模一样:原创 2020-10-13 15:25:21 · 452 阅读 · 0 评论 -
HDFS读写解析
HDFS读写解析 HDFS读数据流程 客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。 挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。 DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验) 客户端以Packet为单位接收,先在本地缓存,然后写入目标文件 HDFS写数据流程 客户端通过Distributed FileSystem模原创 2020-10-13 15:12:13 · 114 阅读 · 0 评论 -
HDFS分布式文件系统-简介
HDFS分布式文件系统 HDFS 简介 HDFS (全称:Hadoop Distribute File System,Hadoop 分布式文件系统)是 Hadoop 核心组成,是分布式存储服务。 分布式文件系统横跨多台计算机,在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。 HDFS是分布式文件系统中的一种 HDFS的重要概念 HDFS 通过统一的命名空间目录树来定位文件; 另外,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色(分布式本质是拆分,各司原创 2020-10-13 15:04:12 · 679 阅读 · 0 评论 -
Apache Hadoop 完全分布式集群 搭建
centos7实现免密登录 在node01上生产一对钥匙(公钥和私钥) 首先在root用户下,执行ssh-keygen -t rsa,一路回车,接着会产生在/root目录下会产生.ssh目录 查看 .ssh 目录,会发现它下面生成了两个 id_rsa , id_rsa.pub文件 ssh-copy-id node01 ssh-copy-id node02 ssh-copy-id node03 同理其它节点也一样 虚拟机环境准备 三台虚拟机(静态IP,关闭防火墙,修改主机名,配置免密登录,集群时间同步)原创 2020-10-12 17:16:44 · 366 阅读 · 1 评论 -
Apache Hadoop的重要组成
Hadoop的广义和狭义之分 狭义的Hadoop:指的是一个框架,Hadoop是由三部分组成:HDFS:分布式文件系统–》存储; MapReduce:分布式离线计算框架–》计算;Yarn:资源调度框架 广义的Hadoop:广义Hadoop是不仅仅包含Hadoop框架,除了Hadoop框架之外还有一些辅助框 架。Flume:日志数据采集,Sqoop:关系型数据库数据的采集; Hive:深度依赖Hadoop框架完成计算(sql),Hbase:大数据领域的数据库(mysql) Sqoop:数据的导出 广义Hado原创 2020-10-10 20:11:56 · 397 阅读 · 0 评论
分享