Hadoop
it小奋
这个作者很懒,什么都没留下…
展开
-
Hadoop 二次排序实现
业务场景:通常情况下,在MR操作中到达Reduce中的key值都是按照指定的规则进行排序,在单一key的情况下一切都进行的很自然,直到我们要求数据不再单纯的按key进行排序,以如下数据举例:Key -> value:100 -> 2017-02-27 19:21:31,45,67,6850 -> 2017-02-27 19:22:04,89,原创 2017-02-28 08:23:43 · 1299 阅读 · 0 评论 -
Hadoop 2.8.0集群环境搭建_HDFS阶段
围绕Hadoop而形成的生态圈中Hadoop扮演了重要的角色,学习大数据Hadoop自然是必经之路,本节基于Hadoop官方文档简述Hadoop 集群环境的搭建,单机版,伪分布式可自行参考文档.建议准备至少五台物理机或者虚拟机,且能够互相通信.在此之前建议不熟悉网络防火墙的朋友自行关闭防火墙,避免带来不必要的麻烦.自行安装JDK并配置PATH,JAVA_HOME等环境变量.原创 2017-03-30 21:21:14 · 819 阅读 · 0 评论 -
Hadoop 2.X基础笔记
原创 2017-04-16 16:50:30 · 334 阅读 · 0 评论 -
Hadoop2.X MR作业流
Hadoop2.X MR作业流情景概述:作为HFDS的高层建筑,MR被设计与在大型分布式文件系统之上的离线数据运算,在对一些运算时效性要求不高的场景中更适合于MR作业,MR在ETL流不同阶段可扮演不同的角色,甚至在某些场景下基于MR的链式操作可完成ETL的整个流程.MR概述:Hadoop MR(Mapper Reduce) 是一个软件架构的实现,用户处理大批量的的离线数据作业,运行于大型集原创 2017-04-02 18:49:44 · 1110 阅读 · 0 评论 -
Hadoop2.x YARN架构
Hadoop 2.X YARN架构概述:Hadoop2.X 摒弃了1.X中JobTracker扮演的资源调度角色,改用具有更具通用性的YARN 资源管理框架,而YARN本身更是开源集群资源管理的典范.资源调度: | 切割资源管理和作业调度,监控到不同的守护进程中[daemons],YARN提供了一个全局的资源管理器ResourceManager(RM),每一个应用程序有自己独立的Ap原创 2017-04-02 16:51:03 · 582 阅读 · 0 评论 -
Hadoop2.X HDFS架构
概述:DHFS是一个基于廉价硬件基础设施的高度容错性的分布式文件系统.HDFS由Apache Nutch项目演化而来.现阶段HDFS作为大数据存储解决方案,拥有众多的受益企业和个人,学习势在必行. HDFS目标:| 硬件故障是常态.对应快速故障恢复和转移.| 流式数据接收,高吞吐量而不是低延迟下的实时性要求| 大数据集. 通常考虑的G字节的存储级别.数以百计的集群,但节点原创 2017-04-02 15:45:00 · 4101 阅读 · 0 评论 -
基于交通数据的可达性分析
业务场景:交通流中车辆的行驶轨迹可以用来描述城市交通网中某两点间的可达性.该例以城市治安卡口过车数据为依据,进行数据清洗和处理,形成整个城市交通网治安卡点间的可达性矩阵,基于此可进行进一步的城市交通状态分析. 处理流程:Hadoop:处理原始过车数据,形成以单个车辆时间序列顺序生成的数据流示例[(kkid1,1)(kkid2)…],该过程中需要对数据的合法性进行检查主要体现在排除A-A原创 2017-03-11 20:30:01 · 9635 阅读 · 0 评论 -
Zookeeper 集群环境搭建
参考官方文档,基于ZK3.4.9 ,JDK1.8, CENTOS 7下载ZK 安装包,http://apache.fayea.com/zookeeper/zookeeper-3.4.9/zookeeper-3.4.9.tar.gz 推荐迅雷下载集群环境,准备至少三台的奇数个CentOS主机, 依据来源于ZK的ZAB协议,可查询相关资料论证.为保证集群一致性,强烈建议使用统一的host原创 2017-03-28 07:45:27 · 397 阅读 · 0 评论 -
Hadoop TOPN 实现
业务场景:大数据的挖掘的形式多种多样,即便是最基本的数据大处理技术,也应该关注全部数据而不是局部或者部分,以TOPN(排序取顶部N项目数据)为例,对全批量数据进行统计技术并筛选目标数据.数据格式: VERSION=1.0,PASSTIME=2016-11-3000:00:39 000,CARSTATE=1,CARPLATE=无,PLATETYPE=99,SPEED=0,PL原创 2017-03-01 19:14:04 · 2439 阅读 · 1 评论 -
Hadoop 移动平均在交通流量中的应用
业务场景:交通网中存在大量的实时和历史过车数据,应用历史过车数据的均衡变化评价某个点位,某个时刻的瞬时交通流有很大的意义,基于流量变化趋势能分析出城市交通行车高峰期等特性.移动平均: 详细描述见:http://wiki.mbalib.com/wiki/%E7%A7%BB%E5%8A%A8%E5%B9%B3%E5%9D%87%E6%B3%95,以每分钟统计的交通流数据和每分钟以移动平均算原创 2017-03-04 11:21:48 · 890 阅读 · 0 评论 -
Hadoop HDFS-Federation概述
概述:HDFS 单Namenode节点的设计大大的简化了HDFS的实现, HDFSFederation 提出一种基于现有架构的Namenode水平扩展解决方案。HDFS存储架构:整体上看HDFS主要由两层架构组成,HDFS Federation 支持为一个HDFS集群配置多个Namenodes/namespaces l NameSpacen 由目录、文件和多个块组成翻译 2017-08-06 11:08:29 · 354 阅读 · 0 评论