Hadoop

本文介绍了大数据的四个关键特征,区分了结构化和非结构化数据,并详细探讨了Hadoop生态系统,特别是HDFS架构及文件读取流程。
摘要由CSDN通过智能技术生成

1.大数据的特征:

数据量大(Volume),各种类型多样(Variety),价值密度低(Value),高速(Velocity)

2.结构化数据:

可以从名称中看出,是高度组织和整齐格式化的数据。结构化数据也被成为定量数据,是能够用数据或统一的结构加以表示的信息,如数字、符号。但结构化数据的扩展性不好

非结构化数据:非结构化数据本质上是结构化数据之外的一切数据。简单的说,非结构化数据就是字段可变的的数据。对非结构化数据,一般以二进制的形式直接整体进行存储。例:文本文件,电子邮件,微信,office文档。

3.Hadoop生态圈:

Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。

Hadoop的核心组件是HDFS,MapReduce

4.Hadoop hdfs架构:

HDFS架构:主从架构。NameNode是主节,DataNode是从节点。

5.hdfs读的流程:

1.HDFS客户端远程调用Namenode,查询元数据信息,获得这个文件的数据块位置列表,返回封装DFSIntputStream的HdfsDataInputStream输入流对象。

2.客户端选择一台可用Datanode服务器,请求建立输入流。

3.Datanode向输入流中写原始数据和以packet为单位的checksum。

4.客户端接收数据。如遇到异常,跳转至步骤2,直到数据全部读出,而后客户端关闭输入流。

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值