Hadoop概述总结

Hadoop概述总结

1.Hadoop做什么

–apache 分布式系统基础架构
–海量数据存储
–数据分析计算

2.大数据特点

–海量、高速、多样化(结构,非结构化数据)、高价值低密度

3.Hadoop–4高

–高可靠性:hadoop底层维护了多个数据副本(每台机器中只维护一个副本),保证数据存储或计算时即使出现故障,也不会造成数据的丢失
–高扩展性:hadoop集群之间分配任务数据,可方便的扩展数以千计的节点
–高效性:MapReduce思想下,hadoop是并行工作的,以加快任务处理速度
–高容错性:hadoop能够自动的将失败的任务重新分配

4.Hadoop不同版本组成对比

hadoop1.xhadoop2.x/3.x
MapReduce(计算+资源调度)MapReduce(只负责计算)
HDFS分布式文件系统(数据存储)HDFS分布式文件系统(数据存储)
Common(辅助工具)Common(辅助工具)
资源指的是内存,磁盘,网络,cpu等Yarn(只负责资源调度)资源,主指内存
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
大数据是当今全世界都在谈论的词。 数据量日复一日地从千字节增加到 Zettabytes,数据可能是连续或频繁的实时流的速度,以及来自不同来源的不同格式(结构化、非结构化和非结构化)的各种数据。半结构化)。 所有这些类型的数据都将被合并、存储、处理和分析以备将来的结果。 大数据分析因其降低成本、更快和更好的决策而广受欢迎。 由于其特定功能,它被用于医疗保健、教育、制造、银行、保险、运输、媒体和娱乐等众多应用中。医疗保健领域的数据正在Swift增长,预计近年来会显着增加。 在当今的数字世界中,必须将数据数字化。 为了通过最小化成本来提高医疗质量,必须有效地处理和分析不同类型的健康数据,如电子健康记录、基因组、行为和公共卫生,以应对新的挑战。 出于这个原因,医疗领域被考虑用于大数据分析。 本文介绍了用于处理医疗保健记录的预测性、规范性、描述性和诊断性分析类型。 要执行所有这些操作,Hadoop 是最佳选择。 HadoopHadoop 分布式文件系统 (HDFS) 和 MapReduce 的组合。 Hadoop以其存储容量大、处理速度快、成本低、使用集群在分布式环境中工作的模型简单高效而广为人知。 因此,了解 Hadoop 的技术细节变得至关重要。 这一事实激发了深入探索 Hadoop 及其组件的灵感。 MapReduce 结果有助于预测流行病、治愈疾病、提高生活质量并防止死亡。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值