Hadoop入门学习笔记_day01(大数据的相关概念 )

本文介绍了大数据的基本概念,特别是其4Vs特性:大量、多样、非结构化和高速,并探讨了Hadoop如何解决海量数据的存储问题,强调了HDFS在分布式文件系统中的角色和优势。
摘要由CSDN通过智能技术生成

一、大数据的相关概念:

(一)大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策更积极的资讯。

  • 随着技术的不断发展,符合大数据标准的数据集容量也会增长
  • 不同行业使用的软件和数据集可能差别较大
  • 大数据在今天不同行业的范围可以从十几TB到几PB

(二)大数据的四个特点–4Vs

  • 大量:数据量大,从TB级别跃升到PB级别
  • 多样:数据类型繁多
    • 非结构化:文本、图形、声音等
    • 半结构化:日志
    • 结构化数据:行列规整的表单数据
    • 多结构化数据:以上三种类型混合的数据
  • 高速:数据即时处理的速度
  • 真实性和准确性:只有真实而准确的数据才能让对数据的管控和治理真的有意义

    (三) Hadoop需要解决的问题

  • 海量数据的存储(HDFS)

  • 海量数据的分析(MapReduce)
  • 资源管理调度(YARN)

    问题:怎样解决海量数据的存储?
    分布式文件系统的概念:(HDFS)
    Hadoop分布式文件系统是一种适于在廉价硬件上的分布式文件系统
    ①HDFS是Apache Hadoop核心项目的一部分,例HBase,是在HDFS上构建的
    ②在HDFS文件系统中,一个文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值