云上大数据

一、大数据的特征

1、数量大

大数据的特点之一就是“数量大”,数据量已经达到TB甚至PB级别,无法通过人工处理。例如,淘宝网平常每天的商品交易数据约20TB(1TB=1024GB),全球最大设计平台Facebook的用户,每天产生的日志数据超过了300TB。大数据的数量庞大,包含着大量的规律、知识、模式,对政府决策、生活有巨大的影响。

2、多样性

大数据广泛的数据来源,决定了大数据形式的多样性。大数据大体上可以分为三类,分别是结构化数据、非结构化的数据、半结构化数据。结构化数的特点是数据间因果关系强,比如息管理系统数据、医疗系统数据等;非结构化的数据的特点是数据间没有因果关系,比如音频、图片、视频等;半结构化数据的特点是数据间的因果关系弱。比如网页数据、邮件记录等。

3、高速性

大数据的交换和传播是通过互联网、云计算等方式实现的,远比传统媒介的信息交换和传播速度快捷。大数据与海量数据的重要区别,除了大数据的数据规模更大以外,大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。

4、价值性

价值性是大数据的核心特点。现实中大量的数据是无效或者低价值的,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据。比如,某宝电商平台每天产生的大量交易数据(大数据),通过一些算法可以分析出具有某些特征的人喜欢什么类型的商品,然后根据客户的特征,给其推荐TA喜欢的商品。

二、结构数据化与非结构数据化

1. 概述不同

结构化数据是指按照固定格式和规则组织的数据,例如表格、数据库等。非结构化数据则是指没有固定格式和规则的数据,例如文本、音频和视频等。

2. 含义不同

结构化数据是按照固定格式和规则组织的数据。例如,电子表格中的数据就是结构化数据,因为它们按照一定的列和行组织,并且每个单元格都有自己的数据类型和格式。

非结构化数据是没有固定格式和规则的数据。例如,一篇文章中的文本就是非结构化数据,因为它没有固定的格式和规则,也没有明确的数据类型和格式。

3.. 组织方式和数据类型不同

结构化数据按照固定格式和规则组织,具有明确的数据类型和格式,而非结构化数据没有固定的格式和规则,也没有明确的数据类型和格式。此外,结构化数据可以方便地进行处理和分析,而非结构化数据则需要进行特殊的处理和分析。

四、Hadoop —— hdfs架构

HDFS的系统角色一共有四种:NameNode(主节点)、SecondaryNameNode(备用节点)、DataNode(从节点)、Client(HDFS客户端)。 

NameNode(主节点):里面主要负责管理文件系统的命名空间,维护着整个文件系统的目录树以及目录树中所有的子目录和文件。

SecondaryNameNode(备用节点):NameNode的备用节点,也成为从元数据节点,主要用于定期合并FsImage和Edit Log。SecondaryNameNode的主要作用是辅助NameNode合并FsImage和Edit Log。

DataNode (从节点):也称为数据节点,上面也提到过,一份数据文件在放入hdfs的时候,它会被分成多个数据块(block),而这些数据块就会被存储到多个DataNode节点上的特定位置,块的名称为blk_blkID。

下面是它的架构图:

5e7f2a090dcb4e768d710f153ee5c0d3.png

五、HDFS读的流程

1、客户端通过分布式文件系统向NameNode请求下载文件,请求包括要读取的路径和偏移量。

2、NameNode通过查询元数据,找到文件所在的DataNode地址,响应文件是否存在,并返回目标文件的元数据。

3、客户端通过就近原则选一台DataNode服务器请求读取数据。

4、DataNode开始传输给客户端,从磁盘里读取数据,以packet为单位作校验。

5、客户端以Packet为单位接收,先在本地缓存,然后合并写入目标文件。

a07bdc3ab45c4cdba51e13f9c0c2d675.png

  • 34
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值