大数据学习
记录我的大数据学习历程
Kevin@1997
每日三省吾身,为什么又不看书。
展开
-
大数据笔记(四):Hadoop 2.7.7+Scala+Spark 完全分布式集群搭建
本文记录了使用3台物理机部署Hadoop完全分布式集群的过程,所使用系统为Ubuntu16.04 LTS,Hadoop版本为Hadoop 2.7.7。搭建前的准备Ubuntu16.04 LTSJDK(Download pass:kevin)Hadoop 2.7.7(Download pass:kevin)免密登录新装系统分别设置如下参数No.姓名计算机名用户...原创 2019-04-17 15:29:35 · 1891 阅读 · 0 评论 -
大数据笔记(三):IDEA下使用Maven工程与HDFS进行简单交互
最近在看浙大林子雨老师的mooc,3.6讲使用Eclipse开发环境与HDFS进行交互,我比较喜欢IDEA的风格,这篇blog记录了在使用IDEA时踩过的坑。配置Maven环境Maven是什么?Maven是基于项目对象模型(POM project object model),可以通过一小段描述信息(配置)来管理项目的构建,报告和文档的软件项目管理工具。(我的理解:通过pom.xml自动...原创 2019-04-13 23:23:11 · 1011 阅读 · 0 评论 -
大数据笔记(二):Hadoop1.x下的第二名称节点(SecondaryNameNode)
在NameNode(NN)运行期间,HDFS因为文件的频繁更新会使得EditLog的体积不断增大,进而使NameNode在重启过程中逐条执行EditLog来更新FsImage的过程变得缓慢,使得NameNode长期处于只读状态,影响用户使用。 HDFS提供了第二名称节点(SecondaryNameNode,SNN)来解决这个问题: SNN每隔一段时间会向NN发出停止使用EditLog的请...原创 2019-04-11 23:53:04 · 2896 阅读 · 1 评论 -
大数据笔记(一):Ubuntu 16.04 LTS 下搭建Hadoop伪分布式环境
Hadoop是Apache的一个开源框架,用于分布式存储以及在商用硬件上运行的计算机集群上的大数据的分布式处理。 Hadoop将数据存储在Hadoop分布式文件系统(HDFS)中,并使用MapReduce完成这些数据的处理。 YARN提供用于在Hadoop集群中请求和分配资源的API。Apache Hadoop框架由以下模块组成:Hadoop CommonHadoop Distribute...原创 2019-03-08 18:54:37 · 891 阅读 · 2 评论