自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 数据湖、数据集市、数据仓库 入门级理解

数据湖、数据集市、数据仓库 每个应用程序会产生、存储大量数据,而这些数据并不能被其他应用程序使用,这种状况导致数据孤岛的产生。 数据湖 是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。 能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。 拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用。 数据湖通常包含更多的相关的信息,这些信息有很高概率会被访问,并且能够为企业挖掘新的运营需求。

2021-01-13 14:51:16 262

原创 HDFS Master/Slave 模式中的组件介绍

Master/Slave NameNode(NN) 活动Master管理节点(全局唯一) 管理命名空间 管理元数据 管理Block副本策略:默认3个 处理客户端读写请求,为DataNode分配任务 Secondary NameNode(SNN) 不是热备。 定期帮助NN合并fsimage与edits文件,减少NN启动时间。 NameNode元数据文件 edits(编辑日志文件):保存了自最新检查点(CheckPoint)之后的所有文件更新操作 fsimage(元数据检查点镜像文件,相当于内存的快照

2021-01-12 16:04:31 385

原创 HDFS优缺点

HDFS优缺点 优点: 高容错、高可用、高扩展。 HDFS有副本冗余机制,包括其自身在内默认会有3个副本随机存放在集群的不同的服务器上,如果服务器宕机,HDFS会通过COPY的方式永远保证数据的副本不会低于三个。 海量数据存储 构建成本低、安全可靠 适合大规模离线批处理 流式数据访问,HDFS 一次写入,多次读取,支持追加,不允许修改,保证数据一致性。 数据位置暴露给计算框架。 缺点 不适合低延迟数据访问 在某一时间内大量写入、读取数据,但是毫秒级这种低延时它是支持不了的。 不适合

2021-01-12 12:12:22 485 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除