何为大数据处理
大数据处理就是从海量的原始数据中抽取出有价
值的信息,即数据转换成信息的过程。
q大数据处理数据时代理念的三大转变:
§ 要全体不要抽样
§ 要效率不要绝对精确
§ 要相关不要因果
q大数据处理方法有很多,我们可以根据应用的
实际需求对数据采取灵活的处理方式
大容量数据
§ 大数据需要处理的数据大小通常达到PB(1024 TB)或EB(1024 PB)级;巨大的数据量和种
类繁多的数据类型给大数据系统的存储和计算带来很大挑战。
q多格式数据
§ 海量数据包括了越来越多不同格式的数据,数据的类型多种多样,包括结构化数据、半
结构化数据和非结构化数据;不同格式的数据需要不同的处理方法。
q速度
§ 速度是指数据从端点移动到处理器和存储的速度大容量数据
§ 大数据需要处理的数据大小通常达到PB(1024 TB)或EB(1024 PB)级;巨大的数据量和种
类繁多的数据类型给大数据系统的存储和计算带来很大挑战。
大型主机所面临的问题
q多格式数据
§ 海量数据包括了越来越多不同格式的数据,数据的类型多种多样,包括结构化数据、半
结构化数据和非结构化数据;不同格式的数据需要不同的处理方法。
q速度
§ 速度是指数据从端点移动到处理器和存储的速度
并行计算
并行计算是相对于串行计算的概念(如下图所示),指在并行计算机上所作的计算,即
采用多个处理器来执行单个命令。并行计算可分为时间上的并行和空间上的并行。
并行运算与分布式计算的区别是:
分布式计算强调的是任务的分布执行;
而并行计算强调的是任务的并发执行
网格计算
网格计算指利用互联网把地理上广泛分布的各种资源(计算、存储、带宽、软件、数据、
信息、知识等)连成一个逻辑整体,组成一个“虚拟的超级计算机”,为用户提供一体
化信息和应用服务(计算、存储、访问等)。网格计算是由数以万计个“节点”组成的
“一张网格
”,是专门针对复杂科学计算的计算模式
批处理模式的优势和局限
优势
• 可以处理非常海量的数据集
• 可以在廉价硬件上运行
• 具备极高的缩放潜力,生产环境中曾经出现过包含数万个节点的应用
局限
• 这种方法严重依赖持久存储
• 每个任务需要多次执行读取和写入
• 速度相对较慢
• 学习曲线较为陡峭