Spark是大数据技术中数据计算处理的王者,能够一次处理PB级的数据,分布在数千个协作的物理或虚拟服务器集群中,它有一套广泛的开发者库和API,并且支持Java,Python,R和Scala等语言,其灵活的特性,适合各种环境,以下是Spark最常见的两种应用场景:
离线场景:可以以时间为维度,几年的数据集,或者以业务为维度,某个领域的大数据集等,这种数据我们一般叫做离线数据,或者冷数据。
实时场景:网站埋点、实时从前端页面传输过来的数据、业务系统或物理硬件实时传输过来的数据、硬件信号或者图像数据等,需要实时去计算处理并且返回结果的数据。
Spark是为数据科学设计的,数据科学家将Spark纳入其应用程序,能够处理包括跨大型数据集的交互式查询,来自传感器或金融系统的流数据以及机器学习任务,且Spark将数据集缓存在内存中的能力大大加快了迭代数据处理速度,使得Spark成为实现迭代的MapReduce算法的理想处理引擎。
Spark是为大数据工程师设计的,在强大的计算能力和优秀的架构设计面前,可以让数据工