大数据相关知识

大数据5大特征:

a.数据体量大  采集数据量大、存储数据量大、计算数据量大

b.种类、来源多样化

c.价值密度低

d.速度快   --数据增长速度快 获取数据速度快 数据处理速度快

f.数据的质量

分布式和集群

分布式 多台机器每台机器上部署不同组件

集群    多台机器每台机器上部署相同组件

Hadoop三大组件

HDFS  -- Hadoop Distributed File System   Hadoop的分布式文件存储系统,解决海量数据存储

 主要负责数据的存储和管理,可以将大数据集分成多个数据块,并将这些数据块分配到不同的计算节点上存储,提高数据的可靠性和处理效率

MapReduce 是Hadoop的分布式计算框架,解决海量数据计算

提供了一种简单的编程模型,通过将大规模数据分解成多个小任务并行处理,可以大大提高数据处理的效率。MapReduce 模型包括 Map 和 Reduce 两个阶段,其中 Map 阶段将数据分解成多个小块进行处理,Reduce 阶段将处理结果合并

YARN -- Yet Another Resource Negotiator  Hadoop的资源管理器,解决资源任务调度

负责为多个应用程序分配和管理计算资源,可以有效地提高计算资源的利用率

Hive 是Hadoop的数据仓库项目

Spark 是一个通用且快速的集群计算系统

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值