hadoop大数据
jasnet_u
这个作者很懒,什么都没留下…
展开
-
hadoop(二)--Hdfs文件系统
上一篇,我们搭建了hadoop的集群环境(双节点) hadoop天生就是集群,哪怕只有一个节点也是个单节点的集群,在hadoop中底层默认使用了HDFS文件系统,mapreduce是基于HDFS文件系统上的运行模型(框架),而yarn是hadoop2.x版本后从mapreduce框架中分离出的资源调度框架,关于yarn框架我们后面再细说。咳咳,现在回到正题。在hadoop中HDFS是自带(默认...原创 2018-06-04 03:17:47 · 445 阅读 · 0 评论 -
hadoop(三)--mapreduce程序运行
上篇,我们介绍了hadoop中hdfs文件系统,本篇我们继续学习下hadoop的另一大核心:mapreduce。mapreduce是hadoop中首创的分布式运算框架,它极擅长离线的海量日志数据的分析,离线的批量任务处理。mapreduce将一个任务(job) 划分为两个阶段:map(映射)阶段和reduce(化简)阶段。map(映射)阶段: 处理单个的、具体的一条一条的数据,可高度并发。redu...原创 2018-06-04 05:26:53 · 277 阅读 · 0 评论 -
hadoop(七)--hadoop中hbase的安装
如图。HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般...原创 2018-06-20 18:04:22 · 244 阅读 · 0 评论 -
hadoop(四)--mapreduce流量统计案例
mapreduce是hadoop的核心,除了简单地处理诸如字符串、数字等数据,我们也可以处理自定义的bean(实现hadoop的序列化接口)本篇,我们再写个mapreduce的案例:统计手机用户上网流量的数据。现有一些手机用户上网行为的数据 如下:HTTP_20130313143750.data1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 12...原创 2018-06-09 12:53:48 · 6384 阅读 · 1 评论 -
hadoop(五)--七节点HA集群搭建
如题,搭建hadoop的HA集群。hadoop的ha(High availability) 架构解决了hadoop中namenode可能存在的单点故障问题,两个namenode组成一个联邦,一个为active,另一个为standby状态。yarn集群的HA,则是需要两台resourcemanager机器,一个active一个standby。一、环境准备 7台虚拟机: hadoopNode01 ...原创 2018-06-09 14:08:37 · 847 阅读 · 0 评论 -
hadoop(六)--hadoop中hive的安装
如题。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。。。(此处省略500字)一、hive的安装 hive 官网 http://hive.apache.org/ (或者到国内著名镜像站下载亦可) http://mirror.hust.edu.cn/a...原创 2018-06-09 14:31:06 · 567 阅读 · 0 评论