- 博客(3)
- 收藏
- 关注
原创 数据湖、数据集市、数据仓库 入门级理解
数据湖、数据集市、数据仓库 每个应用程序会产生、存储大量数据,而这些数据并不能被其他应用程序使用,这种状况导致数据孤岛的产生。 数据湖 是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。 能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。 拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用。 数据湖通常包含更多的相关的信息,这些信息有很高概率会被访问,并且能够为企业挖掘新的运营需求。
2021-01-13 14:51:16
262
原创 HDFS Master/Slave 模式中的组件介绍
Master/Slave NameNode(NN) 活动Master管理节点(全局唯一) 管理命名空间 管理元数据 管理Block副本策略:默认3个 处理客户端读写请求,为DataNode分配任务 Secondary NameNode(SNN) 不是热备。 定期帮助NN合并fsimage与edits文件,减少NN启动时间。 NameNode元数据文件 edits(编辑日志文件):保存了自最新检查点(CheckPoint)之后的所有文件更新操作 fsimage(元数据检查点镜像文件,相当于内存的快照
2021-01-12 16:04:31
385
原创 HDFS优缺点
HDFS优缺点 优点: 高容错、高可用、高扩展。 HDFS有副本冗余机制,包括其自身在内默认会有3个副本随机存放在集群的不同的服务器上,如果服务器宕机,HDFS会通过COPY的方式永远保证数据的副本不会低于三个。 海量数据存储 构建成本低、安全可靠 适合大规模离线批处理 流式数据访问,HDFS 一次写入,多次读取,支持追加,不允许修改,保证数据一致性。 数据位置暴露给计算框架。 缺点 不适合低延迟数据访问 在某一时间内大量写入、读取数据,但是毫秒级这种低延时它是支持不了的。 不适合
2021-01-12 12:12:22
485
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅