![](https://img-blog.csdnimg.cn/56fc00d7636a44e395ad1e04a293abea.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop
Hadoop-大数据。
文文鑫
这个作者很懒,什么都没留下…
展开
-
RAID技术
1.RAID发展历史 1988 年美国加州大学伯克利分校的 D. A. Patterson 教授等首次在论文 “A Case of Redundant Array of Inexpensive Disks” 中提出了 RAID 概念 [1] ,即廉价冗余磁盘阵列( Redundant Array of Inexpensive Disks )。由于当时大容量磁盘比较昂贵, RAID 的基本思想是将多个容量较小、相对廉价的磁盘进行有机组合,从而以较低的成本获得与昂贵大容量磁盘相当的容量、性能、可靠性。随着磁原创 2020-12-30 18:02:18 · 347 阅读 · 0 评论 -
Hadoop-第一个MapReduce程序(WordCount)开发
1.准备数据文件aa.log(注意空格)wenxin xaiowen wangwuxiaowen xiaoxin wenxinxiaowen zhangshan lisi2. 启动Hadoop集群3. 将数据文件上传到HDFS文件系统中[root@Cluster00 ~]# hdfs dfs -mkdir /wordcount[root@Cluster00 ~]# hdfs dfs -put aa.lpg /wordcount3.开发MapReduce引入相关依赖 <原创 2020-11-29 17:10:07 · 204 阅读 · 0 评论 -
Hadoop-MapReduce+Yarn核心原理
1. MapReduce核心:Hadoop体系下一个编程模型(计算框架),主要是用来操作HDFS中存储数据并对HDFS中数据进行计算2. Map+ReduceMap:用来对局部数据进行运算 局部运算Reduce:对局部运算的结果做汇总运算 汇总运算3. Yarn(统一资源调度器,任务资源管理器)a. 整合hadoop集群中资源(CPU,内存)进行统一调度。 比如:12核,1234G;监控map和reduce的执行情况b. Yarn=Resoucer原创 2020-11-05 12:34:12 · 152 阅读 · 0 评论 -
Hadoop-HDFS的简单架构原理
1. Hadoop引言Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。对于Hadoop的集群来讲,可以分成两大类角色:Master和Slave。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件原创 2020-11-03 20:44:59 · 255 阅读 · 1 评论 -
Hadoop-大数据引言
1. 什么是大数据?对大量的数据集文件处理的过程,称之为大数据(TB级以上)大量数据集:b—k---M—G---T—PB—EB—ZB 换算单位:10242. 为什么是大数据?通过对海量数据进行统计分析,从而在这些分析和统计过程中找出内在规律,从而伪国家和企业创造价值3. 大数据特点?4v特征1.Volume(大量) 数据集非常大 TB级以上||如果数据增长在每天/GB级2.Variety(多样) 数据格式多样 非格式化:音频,视频 半结构:json,mongdb3.Velocity(快原创 2020-11-02 22:33:15 · 615 阅读 · 0 评论 -
Hadoop-windows10安装部署Hadoop2.7.3
1.到官网下载hadoo安装到windows本地地址 https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz2. 解压3. 进行设置环境变量1)新建 HADOOP_HOME D:\Hadoop\hadoop-2.7.3\hadoop-2.7.32) Path中增加 %HADOOP_HOME%\bin 和 %HADOOP_HOME%\sbin3)并且把hadoop.dll和win原创 2020-11-04 22:31:22 · 783 阅读 · 0 评论 -
Hadoop-HA的HDFS集群原理分析
简单HDFS集群中存在的问题?如何解决NameNode 单节点问题 单节点自动故障转移如何解决NameNode单节点问题?a. 找一个额外的NameNode备份原有数据b. 如何解决集群中脑裂(一个集群中多个管理者数据不一致这种情况叫做脑裂)如何解决启动多个NameNode时保证统一时刻只有一个NameNode工作,避免脑裂问题?QJM 使用zookeeper完成高可用zookeeper作为一个监控者,NameNode相互切换的工作,如果活跃节点active宕机,自动切换sta.原创 2020-11-05 01:00:08 · 145 阅读 · 0 评论 -
Hadoop-job作业体系结构与每个阶段分析
1. job作业的体系结构A. 一组MapReduce代表一个job作业,代表一次计算B. job作业的来源一定是HDFS,最终结果保存到HDFS中C. 在整个阶段中,Map和Reduce需要程序员手工编码2. 各个阶段分析(WordCount-单词计数)...原创 2020-11-29 15:54:27 · 255 阅读 · 0 评论 -
Hadoop-Hadoop伪分布部署
第一部分 Hadoop伪分布模式平台搭建项目1 环境准备3项目2 JDK的安装42.1 实习说明42.2 实习规划42.3 操作步骤4项目4 Hadoop的安装83.1 实习说明83.2 实习规划83.3 操作步骤83.4 总结和思考23项目4 Hadoop的使用254.1 实习说明254.2 基本命令26第一部分 Hadoop伪分布模式平台搭建项目1 环境准备伪分布式环境:1、系统环境:[root@localhost ~]# uname -aLinux localho原创 2020-12-08 22:09:44 · 249 阅读 · 0 评论 -
Hadoop-job作业执行流程+MapReduce实现手机流量统计
1.分析题目要求知道,对于一个用户手机流量文件进行统计,我们想要得到的结果肯定是<key:手机号,value:[上传量 下载量]>原创 2020-12-07 00:00:09 · 866 阅读 · 0 评论