spark大数据基础复习:一些概念

本文复习了大数据的基本定义和特征,重点介绍了云计算解决方案的特点、大数据处理方式,特别是MapReduce的工作原理。文章深入探讨了Google File System(GFS)的设计决策,Hadoop的架构以及HDFS的擦除编码,同时分析了Hadoop中的故障处理机制,如NameNode故障和worker故障。此外,还讨论了Reed-Solomon算法在错误检测和纠正中的应用,以及MapReduce的局限性。
摘要由CSDN通过智能技术生成

1.大数据的定义

“Big Data” is data whose scale, complexity, and speed require new architecture, techniques, algorithms, and analytics to manage it and extract value and hidden knowledge from it…

————————————————————————————————————

2.大数据的特征Characteristics of Big Data:

1- Data volume / scale
2-Complexity (Variety)
3-Speed (Velocity)

记住4V:
在这里插入图片描述
在这里插入图片描述

————————————————————————————————————

3.The characteristic of cloud computing solutions include:

在这里插入图片描述
在这里插入图片描述

4.如何处理大数据:

Going Parallel/Distributed is the Only Way to Scale(并行和分布式是唯一的变成大规模的方法)

并行的缺点:

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值