数据处理引擎：Spark

最新推荐文章于 2024-05-14 09:55:28 发布

技术学习分享

最新推荐文章于 2024-05-14 09:55:28 发布

阅读量84

点赞数

分类专栏： Java研究大数据/Scala研究文章标签： spark 大数据 big data

本文链接：https://blog.csdn.net/weixin_40426261/article/details/103082092

版权

Java研究同时被 2 个专栏收录

269 篇文章 1 订阅

订阅专栏

大数据/Scala研究

31 篇文章 1 订阅

订阅专栏

何为大数据处理
大数据处理就是从海量的原始数据中抽取出有价
值的信息，即数据转换成信息的过程。
q大数据处理数据时代理念的三大转变：
§ 要全体不要抽样
§ 要效率不要绝对精确
§ 要相关不要因果
q大数据处理方法有很多，我们可以根据应用的
实际需求对数据采取灵活的处理方式

大容量数据
§ 大数据需要处理的数据大小通常达到PB(1024 TB)或EB(1024 PB)级；巨大的数据量和种
类繁多的数据类型给大数据系统的存储和计算带来很大挑战。
q多格式数据
§ 海量数据包括了越来越多不同格式的数据，数据的类型多种多样，包括结构化数据、半
结构化数据和非结构化数据；不同格式的数据需要不同的处理方法。
q速度
§ 速度是指数据从端点移动到处理器和存储的速度大容量数据
§ 大数据需要处理的数据大小通常达到PB(1024 TB)或EB(1024 PB)级；巨大的数据量和种
类繁多的数据类型给大数据系统的存储和计算带来很大挑战。

大型主机所面临的问题
q多格式数据
§ 海量数据包括了越来越多不同格式的数据，数据的类型多种多样，包括结构化数据、半
结构化数据和非结构化数据；不同格式的数据需要不同的处理方法。
q速度
§ 速度是指数据从端点移动到处理器和存储的速度

并行计算
并行计算是相对于串行计算的概念（如下图所示），指在并行计算机上所作的计算，即
采用多个处理器来执行单个命令。并行计算可分为时间上的并行和空间上的并行。
并行运算与分布式计算的区别是：
分布式计算强调的是任务的分布执行；
而并行计算强调的是任务的并发执行

网格计算
网格计算指利用互联网把地理上广泛分布的各种资源（计算、存储、带宽、软件、数据、
信息、知识等）连成一个逻辑整体，组成一个“虚拟的超级计算机”，为用户提供一体
化信息和应用服务（计算、存储、访问等）。网格计算是由数以万计个“节点”组成的
“一张网格

”，是专门针对复杂科学计算的计算模式

批处理模式的优势和局限
优势
• 可以处理非常海量的数据集
• 可以在廉价硬件上运行
• 具备极高的缩放潜力，生产环境中曾经出现过包含数万个节点的应用
局限
• 这种方法严重依赖持久存储
• 每个任务需要多次执行读取和写入
• 速度相对较慢
• 学习曲线较为陡峭