Hadoop
文章平均质量分 79
AllenGd
人生之奋斗,其苦无穷,其乐无穷。
展开
-
hdfs dfs -du -h 输出三列数据的含义
第一列:该目录下总文件大小第二列:该目录下所有文件在集群上的总存储大小和你的副本数相关,我的副本数是3 ,所以第二列的值是第一列的三倍 (第二列内容=文件大小*副本数)第三列:你查询的目录......原创 2021-06-03 17:11:42 · 1993 阅读 · 0 评论 -
HDFS的数据流
1 HDFS写数据流程1.1 剖析文件写入HDFS写数据流程,如图1所示. 图1 配置用户名称1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 Block上传到哪几个DataNode服务器...原创 2020-10-24 20:05:57 · 271 阅读 · 0 评论 -
YARN运行原理浅析
1. yarn的前世今生yarn为什么会诞生?Yarn干什么用的?在Hadoop1.x版本中并没有yarn,直到Hadoop2.x版本才有yarn的诞生。首先,在Hadoop1.0版本,存在的最大的问题就是资源管理问题!!!随着技术的发展,Hadoop集群只使用mapreduce一个计算框架,出现了很多计算框架(例如:spark,mars等一系列计算框架)人们更希望有一套合理的管理机制,来控制整个集群的资源管理,所以,yarn就诞生了。Yarn可以很好的协调各个计算框架与原创 2020-09-02 09:31:01 · 1858 阅读 · 0 评论 -
Hadoop倒排索引(附带完整代码)
“倒排索引”是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)1、实例描述通常情况下,倒排索引由一个单词(或词组)以及相关的文档列表组成,文档列表中的文档或者是标识文档的ID号,或者是指文档所在位置的URL,如图一所示 ...原创 2020-06-10 13:14:44 · 7000 阅读 · 2 评论 -
eclipse连接CDH6.2.1集群的Hadoop集群(wordcount简单测试)
一、使用eclipse连接CDH6.2.1上的Hadoop1.在自己电脑(windows系统)上配置jdk、Hadoop的环境变量2.配置完环境变量后,验证一下:Win+R,输入cmd进入到命令窗口:java -version进入Hadoop的bin目录下:hadoop version3.下载eclipse,安装eclipse4.把hadoop-eclipse-plugin-2.6.0.jar复制到eclipse的plugins目录下5.把E:\..原创 2020-06-10 10:48:24 · 1170 阅读 · 1 评论 -
9 DataNodes are required for the erasure coding policies: RS-6-3-1024k
刚装的CDH6.2.1版本的集群172.30.81.203 manager172.30.81.204 node1172.30.81.205 node2172.30.81.206 node3存在隐患:9 DataNodes are required for the erasure coding policies: RS-6-3-1024k.The number of DataNodes is only 3.解决方案使用RS-6-3-1024k编码纠删码策略至少需要9个DataNode原创 2020-05-26 14:50:22 · 9050 阅读 · 6 评论 -
MapReduce经典4幅图(数据流向图、word count过程图、shuffle工作流程图(map端、reduce端)、MapReduce原理图)
MapReduce经典4幅示意图第一幅示意图:数据流向图数据流首先进行了分片(与HDFS的分块大小一致),然后每个分片会分配给一个map进行处理,之后针对reduce的数量产生对应的输出分片,这里原先的分片顺序会打乱,类似于洗牌,之后分别交给reduce处理后输出结果。第二幅示意图:word count过程图将input的文件拆分成splits,由于测试用的文件较小,所以每个文件作为一个split,并将文件按行分割。这一步由mapreduce框架自动完成。 将分割好的文件交给用户定原创 2020-05-20 17:08:06 · 6171 阅读 · 0 评论 -
Hadoop Shell命令速查表
HDFS命令有两种风格 : hadoop fs开头的 hdfs dfs开头的两种命令均可使用,效果相同 命令 使用方法 作用 ls hadoop fs -ls 如果是文件,则按照如下格式返回文件信息:文件名 <副本 数>文件大小 修改日期 修改时间 权限 用户ID 组ID ,如果是 目录,则返回它直接子文件的一个列表,就像在Unix中一样 ....原创 2020-05-20 16:04:15 · 843 阅读 · 0 评论 -
HDFS原理(超详解)
简介 HDFS(Hadoop Distributed File System )Hadoop 分布式文件系统。是根据 google 发 表的论文翻版的。论文为 GFS(Google File System)Google 文件系统。HDFS 有很多特点:① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存 3 份。② 运行在廉价的机器上。③ 适合大数据的处理。多大?多小?HDFS 默认会将文件分割成 block,64M 为 1 个 block。然后将block按键值对存储在HD原创 2020-05-20 15:45:24 · 5353 阅读 · 1 评论 -
Hadoop简介(HDFS、MR、HDFS读写文件详解)
Hadoop 2.x由HDFS、MapReduce和YARN三个分支构成;HDFS:NN Federation、HAMapReduce:运行在YARN上的MRYARN:资源管理系统Hadoop核心Hadoop的核心就是HDFS(Hadoop Distributed File System,Hadoop分布式文件系统 )和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapRedu.原创 2020-05-20 14:13:57 · 2030 阅读 · 0 评论 -
Hadoop集群安装(3个节点)
1. 网络配置【所有节点】修改hostname在每个节点上执行hostname [主机名]配置网络vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=node4 #【每个节点改成相应的hostname】NETWORKING_IPV6=noPEERNTP=no保存退出重启网络服务service network ......原创 2020-04-26 09:53:59 · 2147 阅读 · 0 评论