大数据技术与应用

一.初识Hadoop

1.大数据的特征:

  • 大量性(Volume)。大数据的数据量非常大,已经超出了传统数据库软件工具的处理能力范围。
  • 高速性(Velocity)。大数据的交换和传播通过互联网、云计算等方式实现,远比传统媒介的信息交换和传播速度快。
  • 多样性(Variety)。大数据的数据来源广泛,包括结构化数据、非结构化数据、半结构化数据等,形式多样。
  • 价值性(Value)。大数据的核心特点在于其价值性,通过分析大量不相关的各种类型的数据,可以挖掘出对未来趋势与模式预测分析有价值的数据。

2.结构化数据、非结构化数据:

结构化数据:

结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。

非结构化数据:

相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XMLHTML、各类报表、图像和音频/视频信息等等。

非结构化数据库是指其字段长度不等,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。

3.Hadoop生态圈:

概述:

一个用于分布式大数据处理的开源框架,由Apache基金会所开发的分布式系统基础框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。同常是指一个更广泛的概念-Hadoop生态圈。

4.Hadoop HDFS架构:

HDFS的优点:                                      HDFS的缺点:

(1)高容错;                                     (1)高延迟;  

(2)流式数据访问;                          (2)不适合小文件存取;

(3)支持超大文件;                          (3)不适合并发写入。

(4)高数据吞吐量。

HDFS流程:

HDFS读文件的流程包括:客户端向NameNode发送读取文件的请求,NameNode验证权限和路径并返回文件的元数据信息,客户端根据元数据信息获取数据块所在的数据节点列表,客户端与数据节点建立连接并发送读取数据块的请求,数据节点将数据块发送给客户端,客户端接收并处理数据块,通过重复这个过程直到读取完所有数据块。

5.HDFS读的流程:

HDFS客户端通过DistributedFileSystem对象的open(方法打开要读取的文件。
DistributedFileSystem负责向远程的名称节点( NameNode)发起RPC调用,得到文件的数据块信息,返回数据块列表。对于每个数据块,NameNode返回该数据块的DataNode地址。
DistributedFileSystem返回-一个FSDatalnputStream对象给客户端,客户端调用FSData-InputSream 对象的read0方法开始读取数据。
通过对数据流反复调用read()方法,把数据从数据节点传输到客户端。
当一个节点的数据读取完毕时,DFSInputStream 对象会关闭与此数据节点的连接,连接此文件下一个数据块的最近数据节点。
当客户端读取完数据时,调用FSDataInputStream 对象的close()方法关闭输入流。

6.Hadoop的优势:

(1)扩展能力强;

(2)成本低;

(3)高效率;

(4)可靠性;

(5)高容错性。

HDFS是Hadoop的分布式文件系统,它是Hadoop生态系统中的核心项目之一,是分布式计算中数据存储管理基础。

MapReduce是一种计算模型,用于大规模数据集(大于1TB)的并行运算。

  • 26
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值