大数据的特征,结构化数据 非结构化并且举例,Hadoop生态圈,Hadoop hdfs架构5hdfs读的流程

大数据特征

  1. 数据量大(Volume) 非结构化数据的超大规模和增长,导致数据集合的规模不断扩大,数据单位已从GB到TB再到PB级,甚至开始以EB和ZB来计数。
  2. 类型繁多(Variety) 大数据的类型不仅包括网络日志、音频、视频、图片、地理位置信息等结构化数据,还包括半结构化数据甚至是非结构化数据,具有异构性和多样性的特点。
  3. 价值密度低(Value) 大数据本身存在较大的潜在价值,但由于大数据的数据量过大,其价值往往呈现稀疏性的特点。虽然单位数据的价值密度在不断降低,但是数据的整体价值在提高。
  4. 速度快时效高(Velocity) 要求大数据的处理速度快,时效性高,需要实时分析而非批量式分析,数据的输入,处理和分析连贯性地处理。
  5. 结构化数据
  6. 结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

  7. 也称作行数据,一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
     

    非结构化数据

    非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。
    非结构化数据更难让计算机理解。

  8. hadpoop生态圈

  9. 16ac4b6747ae4bfcbd082f0bd8c6f0fa.png

     hadoop hdfs架构5hdfs读的流程

  10. 1、客户端向NameNode发起请求,需要获取名字为1的数据块 
    2、NameNode中保存了该数据块存储的位置,将DataNode的信息返回给客户端 
    3、客户端就近的方式去从DataNode获取数据 
    4、如果某个DataNode无法访问 
    5、从另一个DataNode中去获取数据 

     

  • 14
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值