数据处理引擎:Spark

何为大数据处理
大数据处理就是从海量的原始数据中抽取出有价
值的信息,即数据转换成信息的过程。
q大数据处理数据时代理念的三大转变:
§ 要全体不要抽样
§ 要效率不要绝对精确
§ 要相关不要因果
q大数据处理方法有很多,我们可以根据应用的
实际需求对数据采取灵活的处理方式

大容量数据
§ 大数据需要处理的数据大小通常达到PB(1024 TB)或EB(1024 PB)级;巨大的数据量和种
类繁多的数据类型给大数据系统的存储和计算带来很大挑战。
q多格式数据
§ 海量数据包括了越来越多不同格式的数据,数据的类型多种多样,包括结构化数据、半
结构化数据和非结构化数据;不同格式的数据需要不同的处理方法。
q速度
§ 速度是指数据从端点移动到处理器和存储的速度大容量数据
§ 大数据需要处理的数据大小通常达到PB(1024 TB)或EB(1024 PB)级;巨大的数据量和种
类繁多的数据类型给大数据系统的存储和计算带来很大挑战。

大型主机所面临的问题
q多格式数据
§ 海量数据包括了越来越多不同格式的数据,数据的类型多种多样,包括结构化数据、半
结构化数据和非结构化数据;不同格式的数据需要不同的处理方法。
q速度
§ 速度是指数据从端点移动到处理器和存储的速度

并行计算
并行计算是相对于串行计算的概念(如下图所示),指在并行计算机上所作的计算,即
采用多个处理器来执行单个命令。并行计算可分为时间上的并行和空间上的并行。
并行运算与分布式计算的区别是:
分布式计算强调的是任务的分布执行;
而并行计算强调的是任务的并发执行

网格计算
网格计算指利用互联网把地理上广泛分布的各种资源(计算、存储、带宽、软件、数据、
信息、知识等)连成一个逻辑整体,组成一个“虚拟的超级计算机”,为用户提供一体
化信息和应用服务(计算、存储、访问等)。网格计算是由数以万计个“节点”组成的
“一张网格

”,是专门针对复杂科学计算的计算模式

批处理模式的优势和局限
优势
• 可以处理非常海量的数据集
• 可以在廉价硬件上运行
• 具备极高的缩放潜力,生产环境中曾经出现过包含数万个节点的应用
局限
• 这种方法严重依赖持久存储
• 每个任务需要多次执行读取和写入
• 速度相对较慢
• 学习曲线较为陡峭

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术学习分享

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值