![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop系列
hadoop相关组件的使用
XiaoLu Liu
每天整理一点点
展开
-
大数据Hadoop之HDFS SecondaryNameNode
HDFS工作机制HDFS可以存储大文件,可以将大的文件分块,每一个块可以存储在不同节点(计算机)中,使得不在受到单台计算机存储的限制。另外,可以设置复制因子(默认为3)对每一个块设有多个复本,一旦某个节点宕机之后,还有其他的复本可以供客户端访问。NameNode和DataNode在Hadoop集群采用的是主从架构,节点主要分为NameNode和DataNode.NameNode是主节点,DataNode是从节点。NameNode存储的是元数据,功能如下:存储文件的元信息:文件大小、权限,文件有几原创 2020-08-09 10:39:00 · 1142 阅读 · 0 评论 -
MapReduce的核心函数——手写WordCount代码
本文是个人对Hadoop权威指南,第二章MapReduce重点总结一、 相关概念作业(Job):客户端执行的一个工作单元,包括输入数据、MapReduce程序和配置信息任务(Task):Hadoop把作业(Job)分为若干个任务来执行,包括Map任务和Reduce任务两类任务,这些任务运行在集群的节点上,并通过Yarn调度,如果一个任务失败,他将在另一个不同的节点上自动重新调度运行。二、 主要工作流程(1) 分片有几个分片就有几个Map任务注:分片的大小一般为hdfs的一个快的大小128MB,原创 2020-06-28 15:45:23 · 600 阅读 · 0 评论 -
MapReduce运行机制
MapReduce简介mapReduce的设计理念是“计算向数据靠拢”,采用“分而治之”的策略,将庞大的数据集切分成多个独立的小分片,并且为每个小分片单独地启动一个map任务(WordCount),这样多个小切片可以并行地执行map任务。其中,map任务地输出又作为reduce任务地输入。适合mapReduce来处理的数据集需要满足一个前提:待处理的数据集可以分解成许多更小的数据集,且每一个更...原创 2020-04-18 23:24:02 · 1585 阅读 · 0 评论 -
hdfs dfs 会报错: command not found
问题:直接使用hdfs dfs(或者 hadoop dfs、hadoop fs)会提示command not found,如下图:解决方案:hadoop@ubuntu:/usr/local/hadoop$ vi ~/.bashrc文件添加如下内容hadoop@ubuntu:/usr/local/hadoop$ source ~/.bashrc # 使设置生效...原创 2020-04-12 19:07:57 · 3443 阅读 · 1 评论 -
Spark学习笔记(厦门大学 大数据技术原理与应用)
Spark安装欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markd...原创 2020-04-10 17:42:00 · 239 阅读 · 0 评论