hadoop入门
万和IT教育
这个作者很懒,什么都没留下…
展开
-
hadoop入门【1】在CentOS7中安装Hadoop
hadoop是大数据入门组件,主要包括两个服务,hdfs以及mapreduce,前者是存储,后者是计算。本文将阐述hadoop的安装。1 系统、软件以及前提约束CentOS 7 64 工作站 作者的机子ip是192.168.100.192,请读者根据自己实际情况设置 jdk1.8.0_162 已经安装完毕,并配置环境变量,作者的环境变量为/root/jdk1.8.0_162,请读者根据自...原创 2019-06-04 13:45:03 · 207 阅读 · 0 评论 -
hadoop入门【2】HDFS的命令行操作
在安装好Hadoop之后,我们来熟悉在命令行界面当中操作分布式文件存储组件HDFS。 HDFS是Hadoop大数据平台中的分布式文件系统,为上层应用或其他大数据组件提供数据存储,如Hive,Mapreduce,Spark,HBase等。1 系统、软件以及前提约束CentOS-7 64 为减少linux权限对初学者造成影响,所有命令均在linux的root权限下进行操作。 已安装hado...原创 2019-06-04 13:47:44 · 293 阅读 · 0 评论 -
hadoop入门【3】java访问HDFS服务
上一节课我们熟悉了HDFS的命令行操作,接下来我们将通过java代码访问HDFS服务。1 系统、软件以及前提约束hadoop已经安装完毕并且启动https://www.jianshu.com/p/b7ae3b51e559 hadoop2.7.2.zip windows简化版 下载到相关jar包 上述软件下载链接:https://pan.baidu.com/s/1c_skDYabCRS...原创 2019-06-04 14:34:39 · 393 阅读 · 0 评论 -
hadoop入门【4】在eclipse中查看HDFS
在上面的例子中,我们通过java代码对hdfs进行了操作,操作结果我们可以用代码继续查看或者通过命令行获得,但不论哪一种都不够直观,eclipse提供了一种直接连接HDFS 并展示的插件。我们将展示如何使用此插件。1 系统、软件以及前提约束在CentOS7中安装hadoophttps://www.jianshu.com/p/b7ae3b51e559 eclipse Oxygen.3 (4...原创 2019-06-04 17:10:06 · 430 阅读 · 0 评论 -
hadoop入门【5】测试hadoop自带词频统计demo
在了解了Hadoop中的存储组件HDFS之后,我们再来看一下Hadoop中另一个重要组件的计算MapReduce。HDFS搞定海量的存储,MapReduce搞定海量的计算。hadoop如其他优秀的开源组件一样,也提供了丰富的demo,下面我们就来看一下如何使用mapreduce自带demo进行词频统计。1 系统、环境和约束条件在CentOS7中安装hadoop并启动,作者的hadoop安装...原创 2019-06-04 17:21:39 · 748 阅读 · 0 评论 -
hadoop入门【6】java完成自定义的词频统计
上一篇文章我们测试了hadoop自带的词频统计,本节将使用java完成自定义的词频统计。1 系统、软件和前提约束完成java访问HDFS服务https://www.jianshu.com/p/386cd966c04f 测试了hadoop自定义的词频统计https://www.jianshu.com/p/327d2af3903d2 操作1 在java访问HDFS的那个项目中,加入以下...原创 2019-06-04 17:23:59 · 709 阅读 · 1 评论 -
hadoop入门【7】安装hadoop集群
通过上面几篇文章,我们熟悉了单机情况下的HDFS操作和MapReduce计算,在实际使用中,为了提升性能和稳定性,大数据组件都会以集群的方式存在,本文将阐述如何搭建hadoop集群。1 系统、软件和前提约束CentOS 7 (1)三台CentOS都已经配置免密登录https://www.jianshu.com/p/0cc72b228647 (2)三台CentOS都已经安装jdk,并配置...原创 2019-06-04 17:25:53 · 199 阅读 · 0 评论 -
hadoop入门【8】使用zookeeper确保namenode、resourcemanager的高可用性
上一篇文章,我们完成了hadoop的集群安装,但从机子的节点分布图中我们可以看到namenode只在master机子上存在,一旦该机子宕机,则HDFS停服,所以我们需要一种机制来保证namenode的高可用性,这种风险也存在于resourcemanager。本文将阐述使用zookeeper来保证namenode以及resourcemanager的高可用性。1 系统、软件和约束前提完成在三台...原创 2019-06-04 17:49:32 · 460 阅读 · 0 评论