hadoop
siyadong1
这个作者很懒,什么都没留下…
展开
-
数据分析系统Hive(第一部分)
第一:Hive简介Hive是构建在Hadoop之上的数据仓库Hive优点 传统数据仓库的任务(ETL,报表,Ad-hoc数据分析)大规模数据分析Hive缺点 Hive不是一个OLTP系统(响应时间慢,无法实时更新系统)Hive的表达能力有限(不支持迭代式算法,有些复杂运算用sql不易表达)第二:Hive安装一、下载安装包并解压[hadoop@hadoopa ~]$ tar -zxvf翻译 2017-03-12 17:33:57 · 1878 阅读 · 0 评论 -
分布式计算:批处理引擎 MapReduce(第二部分)
第一:MapReduce Java高级编程一:Grep问题(多个MR串行运行)背景介绍 一批TB或者PB量级的文档,需要完成以下功能:搜索符合某种规则(正则表达式(单词中包含字符a))的单词或者句子;统计相应的单词或者句子的数目;按照数目对其进行排序,并输出最终结果。解决思路 分为两个作业:作业一:wordCount 统计符合条件的单词数目作业二:sort 按照单词数目进行全排序,翻译 2017-03-12 00:08:39 · 747 阅读 · 0 评论 -
分布式数据处理引擎 Presto
第一:Presto基本介绍Facebook开源的完全基于内存的分布式SQL查询引擎不支持存储,只包含计算引擎支持任意数据源MPP架构多线程处理优优化的ORC和Parquet Reader…第二:Presto基本架构数据处理流程 Client–Presto–MetaStore,HDFS三种服务 coordinate 解析SQL语句生成执行计划分发执行任务给Worker节翻译 2017-03-15 13:02:50 · 1814 阅读 · 0 评论 -
分布式计算:批处理引擎 MapReduce(第一部分)
第一:MapReduce概述优点 易于编程良好的扩展高容错性适合PB级的海量离线处理缺点 不擅长实时计算 毫米级返回处理结果不擅长流式计算 MapReduce的数据源是静态的不擅长DAG计算 map将结果存在hdfs中,不适合多次从hdfs读写来进行计算第二:MapReduce编程模型MapReduce将整个作业的运行过程分为两个阶段Map阶段和Reduce阶段map阶段由翻译 2017-03-10 16:09:36 · 1906 阅读 · 0 评论 -
分布式文件系统:HDFS基础与应用
第一:HDFS概述1. hdfs的优点高容错性适合大数据处理构建在廉价机器上2. hdfs的缺点不适用低延迟高吞吐 1. 比如毫秒级 2. 低延迟和高吞吐率 - 不适用存储小文件小文件 1. 占用namenode大量内存 2. 寻道时间超过存储时间 3. namenode的block块有限制 - 不能并发写入,随机修改翻译 2017-03-07 09:39:00 · 418 阅读 · 0 评论 -
分布式数据收集:(Flume原理与应用)
第一:背景介绍常见的开源数据收集系统非结构化日志(数据)收集 flume结构化日志(数据)收集 sqoop全量导入canal(Alibaba)增量导入Databus(linkedin)增量导入第二:Flume(NG)介绍 - Eventflume以事件的形式传输数据单元事件由一个header和载有数据的byte array构成header是一个字典结构的数据,可以在上下文路由中扩翻译 2017-03-06 09:39:39 · 839 阅读 · 0 评论 -
基于hadoop2.7.3搭建多机环境(YARN+HA)
第一:环境说明parallels desktopCentOS-6.5-x86_64-bin-DVD1.isojdk-7u79-linux-x64.tar.gzHadoop-2.7.3.tar.gz搭建四个节点的集群。他们的hostname分布为hadoopA,hadoopB,hadoopC,hadoopD。其中hadoopA的角色为Activity namnode。hadoopB的角色为s翻译 2017-03-05 14:13:21 · 1457 阅读 · 0 评论 -
分布式资源管理系统:YARN架构与应用
第一:YARN概述yarn是集群资源管理系统,负责资源的统一管理与调度第二:YARN基本架构与原理Resource Manager 整个集群只有一个Resource Manager,负责资源统一管理和调度 处理客户端请求监控NodeManager启动/监控Application Master资源分配与调度NodeManager 每个节点只有一个,负责节点的资源管理 单个节点的资翻译 2017-03-08 13:08:30 · 1255 阅读 · 0 评论 -
基于hadoop2.7.3搭建单机hadoop环境
第一:环境准备 1.parallels desktop 2.CentOS-6.5-x86_64-bin-DVD1.iso 3.jdk-7u79-linux-x64.tar.gz 4.hadoop-2.7.3.tar.gz第二:安装操作系统并修改配置 1.使用虚拟机安装centos 2.赋予新建的hadoop用户sudo权限 [hadoop@localhos翻译 2017-03-03 20:53:14 · 320 阅读 · 0 评论 -
数据分析系统Hive(第二部分)
第一:Hive的运行原理一、Hive Cli(查询处理器)1.Query CompilerParser(语法解析器,生成AST(抽象语法树))Semantic Analyzer(语义分析器,生成QB(查询块))Logical Plan Generator(逻辑查询计划生成器,生成QB Tree)Logical Optimizer(逻辑查询优化器,生成QB Tree)Physical Pla翻译 2017-03-13 14:27:22 · 1447 阅读 · 1 评论