HDFS
Hadoop组件--HDFS
韩家小志
这个作者很懒,什么都没留下…
展开
-
MapReduce--编程模板
1、Driverpackage bigdata.hanjiaxiaozhi.cn.mapreduce.model;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWr原创 2020-12-02 17:49:13 · 251 阅读 · 0 评论 -
HDFS --Java API
0、创建一个子模块引入Maven依赖参考附录一如果网络原因导致jar包无法下载,pom文件爆红,识别不了对应 的依赖改用Apache版本的依赖<properties> <hadoop.version>2.6.0</hadoop.version></properties>1、构建连接 /** * 用于获取一个文件系统对象 */ public FileSystem getHdfs() throws E原创 2020-11-30 17:01:00 · 113 阅读 · 0 评论 -
HDFS--图解元数据安全--SecondaryNameNode
1、数据安全副本机制每个块有多个副本,存储在不同的机器和机架中某台机器宕机,其他机器上依旧可读这份数据安全模式会检查数据块是否完整,如果数据块丢失,会通过副本恢复2、元数据安全问题1:元数据怎么来的?1.格式化时,会初始化生成一个元数据文件,NameNode那台机器的目录中:fsimage【磁盘中】2.当NameNode启动时,会读取这个文件,将这个文件中的内容加载到内存中3.当客户端提交读写请求时,NameNode会对内存中的元数据进行读写【内存中元数据会发生更改,最新】原创 2020-11-30 16:50:29 · 293 阅读 · 0 评论 -
HDFS--读写测试
1、写测试cd /export/servers/hadoop-2.6.0-cdh5.14.0/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.0-cdh5.14.0.jar TestDFSIO -write -nrFiles 10 -size 10MByarn:使用yarn来运行一个程序jar:运行一个jar包share/hadoop/mapreduce/hadoop-mapreduce-client原创 2020-11-30 16:30:27 · 529 阅读 · 0 评论 -
HDFS--集群管理
格式化hdfs namenode -format功能初始化集群,生成唯一的集群ID为NameNode构建初始的元数据一旦集群搭建成功,不能直接二次格式化,会出现一个问题NameNode的集群ID与DataNode的集群ID不一致的第一次格式化NameNode产生一个集群ID:abcdDataNode第一次连接向NameNode 注册成功,也获取这个集群ID所有的DataNode的集群ID也是abcd当前整个集群的ID都是一致的下次DataNode启动必须校验集群ID是否相等,原创 2020-11-30 16:21:11 · 264 阅读 · 0 评论 -
HDFS--文件管理
文件管理命令:hdfs dfs[root@node-01 hadoop-2.6.0-cdh5.14.0]# hdfs dfsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R原创 2020-11-30 14:30:41 · 1886 阅读 · 0 评论 -
HDFS--图解读写流程
写流程写:hdfs dfs -put /export/software/jdk /1-客户端读取配置文件,找到NameNode的地址2-客户端向NameNode发送写入请求3-NameNode会检查是否允许写入将确认同意写入的,结果返回给客户端检查文件是否存在是否有权限存储路径是否存在有没有DataNode可以存储4-客户端会将大文件进行拆分成若干个小文件5-提交第一个块写入的请求给NameNode6-NameNode根据当前集群的情况以及副本的个数,返回三台DataNode原创 2020-11-29 22:03:21 · 104 阅读 · 0 评论 -
HDFS--功能及架构
1、功能文件系统 :分布式结构来存储数据,提供分布式读写实现大数据存储本质:分布式分而治之的思想写:将大的文件通过HDFS进行拆分,拆分成若干个小的块,将每个小块存储在多台机器上读:通过查询元数据,得到这个文件所有块的位置,将这个文件所有的块进行合并,返回给用户2、应用场景适合场景大数据离线存储适合于一次写入,多次读取的场景适合于对读写速度要求不高的场景:将数据直接落地存储在硬盘的,随机读写硬盘:比较慢保存历史归档数据:我们公司永远保存近3年的数据存储采集的大数据,作为原创 2020-11-29 21:49:08 · 815 阅读 · 0 评论