目录
特征
系统设计目标
基本架构
数据副本机制
直播链接:http://live.polyv.cn/watch/125910
任何一个系统都存在时间空间的对立统一
索引可以被称为元数据
特征:
其他分布式系统特征;
高容错性;认为硬件不可靠
高吞吐量;为大量数据访问的应用提供高吞吐量访问
大文件存储;支持存储TB—PB级别的数据
HDFS适合:大文件存储,流式数据访问(数据不断过来,比如日志,视频流,消息流)
不适合:大量小文件,随机写入,低延迟读取
大量小文件会导致元数据无序增长
系统设计目标
备注:删除在新增也属于修改
计算,存储,网络三个存储是瓶颈
把数据放在不同节点计算两个问题:分配以及计算结果之后的汇总是2个重要问题
计算要靠近数据,而非数据靠近计算。
基本架构
jps是java命令,查看当前服务器有哪些和java有关的进程
前面是进程号,后面是进程名称
./hdfs dfs -ls / 查看hdfs数据
每个机器看到的数据一致
./hdfs dfs -rm 文件名称 删除文件
不同的空间在同一时间有不同的连接元,这样不会产生锁,因此速度会加快
数据副本机制
元数据持久化
HDFS数据写入流程
HDFS数据读取流程
配置HDFS数据存储策略
同分布
减少网络分布
这快数据被使用的同时,旁边的数据使用概率也会较高,把数据换入内存同时,周围数据也会存入
副本设置奇数个