Hadoop
别等时光染了梦想
水不撩不知深浅,人不拼怎知输赢
展开
-
Hadoop入门(三) Hadoop2.7.5伪分布式环境搭建
1.准备Linux环境 1.0 修改虚拟机参数 点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok ...原创 2018-02-28 18:17:58 · 869 阅读 · 0 评论 -
Hadoop入门(四) Hadoop中MapReduce的工作原理并使用Maven搭建开发环境
MapReduce简介MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。MapReduce执行流程MapReduce原理MapReduce的执行步骤:1、Map任务处理 1.1 读取HDFS中的文件。每一行解析成一个<k,v&...原创 2018-03-01 10:47:05 · 542 阅读 · 0 评论 -
Hadoop入门(五) Hadoop2.7.5集群分布式环境搭建
前期准备就不详细说了,需要七台linux虚拟机1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 ######注意######如果你们公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等) /etc/hosts里面要配置的是内网IP地址和主机名的映射关系 4.关闭防火墙5.ssh免登陆 6.安装JDK,配置环境变量等集群规划: 主机名 IP ...原创 2018-03-22 14:40:14 · 4008 阅读 · 0 评论 -
Hadoop入门(一) 介绍Hadoop
一、Hadoop是什么The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing. Hadoop是做可靠的、可扩展的、分布式计算,说白了就是处理海量数据问题的解决方案。二、Hadoop要解决的问题海量数据的存储(HDFS)海量数据的分析(MapRed...原创 2018-04-09 14:31:35 · 232 阅读 · 0 评论 -
Hadoop入门(二) 深入了解Hadoop中NameNode和DataNode的工作机制
数据量越来越多,在一台PC的范围存不下了,那么就分配到更多的PC中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。分布式文件管理系统很多,Hadoop的HDFS只是其中一种。HDFS主要分为两大角色,NameNode与DataNode,NameNode主要负责管理元数据,DataNode主要负责存储文件块。NameNode来管理datanode与文件块...原创 2018-04-09 14:36:54 · 5631 阅读 · 0 评论