分布式处理之 hdfs基本操作

最新推荐文章于 2023-12-11 22:20:57 发布

SkullSky

最新推荐文章于 2023-12-11 22:20:57 发布

阅读量414

点赞数

分类专栏：分布式处理文章标签： hdfs 分布式文件系统 hdfs下载 hdfs上传

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SkullSky/article/details/114292889

版权

最近在做平台的分布式升级，需要频繁的访问hdfs上的数据，记录一下常用到的hdfs基本操作。

1. 什么是hdfs

hdfs 全称即 Hadoop Distributed File System。从名字可以看出它是基于Hadoop的分布式文件系统。

hadoop中有3个核心组件：

分布式文件系统 HDFS：实现将文件分布式存储在很多的服务器上
分布式运算编程框架 MAPREDUCE：实现在很多机器上分布式并行运算
分布式资源调度平台 YARN：帮用户调度大量的mapreduce程序，并合理分配运算资源（美团•大众点评使用的资源管理集群即为YARN）。

这三大块构成了强大的 hadoop 分布式处理生态。

2. hdfs工作原理

hdfs作为分布式文件存储系统，是后续进行分布式处理的前提。hdfs的工作原理大致如下：

1、当一个文件存入hdfs时，hdfs会把这个文件切块，分散存储在 N 台linux机器系统中（负责存储文件块的角色：data node）。具体如何切块是由客户端决定的。

2、文件被切块存储后，hdfs就会启动相应的机制，来记录每一份文件块的信息，及每一块的具体存储机器（负责记录块信息的角色是：name node）<

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分布式处理之 hdfs基本操作

最近在做平台的分布式升级，需要频繁的访问hdfs上的数据，记录一下常用到的hdfs基本操作。1. 什么是hdfshdfs 全称即 Hadoop Distributed File System。从名字可以看出它是基于Hadoop的分布式文件系统。hadoop中有3个核心组件：分布式文件系统 HDFS：实现将文件分布式存储在很多的服务器上分布式运算编程框架 MAPREDUCE：实现在很多机器上分布式并行运算分布式资源调度平台 YARN：帮用户调度大量的mapreduce程序，并合理分配运算资源（
复制链接

扫一扫

专栏目录

SkullSky CSDN认证博客专家 CSDN认证企业博客

码龄9年

59: 原创

7万+: 周排名

134万+: 总排名

29万+: 访问

: 等级

2823: 积分

125: 粉丝

277: 获赞

85: 评论

982: 收藏

私信

关注

热门文章

分类专栏

最新评论

聚类之 MeanShift
不会helloworld！: 这个虚拟大佬坐标就是区域内所有小弟取均值啊
【图像处理】海森矩阵
Superstarimage: 佬，请问如果灰度图像的二阶偏导数不存在，例如山脊和峡谷，那么对应的海森矩阵还存在吗
特征离散化（三）之最小熵分箱
Liang.ZL: 可以给发一下完整的代码吗
特征离散化（四）之 bestKS分箱
jsy2236: 你都sort_index了，那不起步也是n logn 嘛
聚类之 MeanShift
qq_52292510: 第一个正式大佬是（4/3,1）还是（5/3,1）文中未看到（5/3,1）是怎么计算来的呀

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。