hadoop
文章平均质量分 92
会写程序员的代码
这个作者很懒,什么都没留下…
展开
-
Flume入门
一、什么是Flume?是一个分布式可靠的高可用的海量日志收集、聚合、移动的工具。通俗来说flume就是一个日志采集工具。二、flume的特性1)flume可以高效率的将多个网站服务器中收集的日志信息存入HDFS/HBase中(这里测试时是以集群中不同主机作为一个服务器,然后采集不同主机上的日志文件并存入HDFS)2)移交数据速度快。flume可以将从多个服务器中获取的数据迅速移交给...原创 2020-01-08 00:35:49 · 365 阅读 · 0 评论 -
Hive入门(二)之Hive调优
在项目开发过程中,使用hive进行数据处理和分析的时候经常会出现问题,如:GC,数据倾斜,这些都是老生常谈的问题了,下面概括几个常用的hive调优方法Hive调优1)map端join1)如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成CommonJoin,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载...原创 2020-01-07 17:23:32 · 310 阅读 · 0 评论 -
Hive入门(一)
一、什么是Hive?基于hdfs,结合类SQL引擎,底层执行MR任务,用于OLAP分析查询的数据仓库。hive的运行原理(简单版理解)driver:解析器,将语句生成抽象的表达式树编译器:词法分析、语法分析、编译(需要联系元数据),编译完成后会生成执行计划优化器:将执行计划进行优化,减少不必要的列、使用分区等等执行器:将优化后的执行计划交给执行引擎运行二、Hive分区、分桶的意义...原创 2020-01-07 11:39:26 · 483 阅读 · 0 评论 -
Hadoop核心组件之Yarn、Mapreduce(一)
什么是Yarn?一、概念是Hadoop生态的资源管理系统。YARN的职责主要是资源管理和Job调度管理。二、yarn的各个成员及职责yarn的主要成员有:ResouceManager、NodeManager、ApplicationMaster、Container。1.ResouceManager职责: 1)处理客户端请求 2)启动或监控ApplicationMaster 3)监控...原创 2020-01-05 14:28:25 · 529 阅读 · 0 评论 -
Hadoop核心组件之HDFS(二)
HDFS的高可靠性的策略机制有哪些?分布式文件系统(HDFS)的高可靠性主要是由多种策略及机制共同作用实现的。常见的三种错误情况:文件损坏、网络或者机器失效、NameNode挂掉。下面我们来看下解决三种常见错误的可靠性策略:**1.文件完整性** –CRC32校验,验证数据是否损坏 在文件建立时,每个数据块都产生校验和,校验和会保存在.meta文件内;客户端获取数据时可以检查...原创 2020-01-04 17:58:26 · 224 阅读 · 0 评论 -
Hadoop核心组件之HDFS(一)
HDFS读流程读流程描述:1. 客户端通过RPC机制调用DistributedFileSystem(分布式文件系统)的FileSystem对象的open()方法与Namenode交互。2. DistributedFileSystem会给Namenode发送请求。3. Namenode接收请求并处理请求: ①会先检查文件是否在Namenode维护的统一命名空间(即目录树结构)中,如果不存...原创 2020-01-04 16:55:38 · 578 阅读 · 0 评论 -
Hadoop架构及各组件介绍
什么是hadoop?hadoop是一个可靠,可扩展的分布式开源框架,提供海量数据的存储和计算。一般hadoop指的是hadoop生态圈。一、先通过一张图了解一下hadoop生态系统整体框架结构。二、理解hadoop生态系统之前,我们先来认识几个概念:1.什么是分布式? 个人理解,就是将一个系统的功能模块分散部署在不同的服务器上,每个服务器上的系统分别对应一个模块功能,每个模块可能负...原创 2020-01-05 21:06:12 · 5443 阅读 · 0 评论