2022-02-09大数据学习日志——PySpark——Spark框架概述

前言部分:知识回顾及课程目标

[前言1]-大数据技术框架

整个大数据技术框架学习,可以划分为4个阶段:离线分析、内存分析、实时存储和实时分析。
在这里插入图片描述

# 第1部分、离线分析(Batch Processing)
	分布式协作服务框架Zookeeper
	大数据基础框架Hadoop(HDFS、MapReduce和YARN)
	大数据数仓框架Hive
	大数据辅助框架:FLUME、SQOOP、Oozie和Hue
	# 实战项目:亿品新零售


# 第2部分、内存分析(In-Memory Processing)
	Apache Spark(Environment环境、Core、SQL等),属于批处理,相比MapReduce快
		将分析数据封装到数据结构:RDD(分布式集合),类似Python中列表list,调用函数处理数据
	# 实战项目:一站制造项目或保险项目


# 第3部分、实时存储
	基于Key-Value内存数据Redis
	大数据NoSQL海量数据库HBase
	分布式消息队列Kafka
	# 实战案例:陌陌综合案例
	

# 第4部分、实时计算
	Apache Flink(实时流式计算框架,天猫双十一实时大屏):Environment、DataStream和Table API & SQL
		数据流封装DataStream,调用函数处理
		Table API和SQL批处理和流计算
	# 实战项目:车联网项目或今日指数项目
[前言2]-Aapche Spark 学习安排

Apache Spark课程学习,从4个大方面,基于Python语言编程开发(又称为PySpark)。

在这里插入图片描述

# 第1方面、Basic Environment(基础环境):
	Spark 框架安装部署及开发运行,如何在本地模式和集群模式运行,使用spark-shell及PyCharm开发应用程序,测试及打包提交运行集群。
	2天时间


# 第2方面、SparkCore(核心模块)
	数据结构RDD,所有数据封装,分布式集合,处理数据直接调用方法(函数)
	2天时间


# 第3方面、SparkSQL(交互式分析)
	结构化数据处理分析,将数据封装在DataFrame,调用API或者使用SQL分析数据;
	实际企业中使用最多的模块,提供丰富外部数据源
	2天时间

# 第4方面、Spark in Action(实战演练)
	基于Spark框架,进行海量数据分析处理,无论SQL语句还是DSL链式编程
	以案例贯彻,知识巩固
	1天时间

学习目标
Spark第1天,主要学习配置Spark 基础环境
框架概述、快速入门(本地模式)和Standalone 集群
1、Spark 框架概述
2、Spark 快速入门
3、Standalone 集群

    Apache Spark是一种闪电般的群集计算技术,专为快速计算而设计。它基于Hadoop MapReduce,它扩展了MapReduce模型以便将其用于更多类型的计算,其中包括交互式查询和流处理。Spark的主要特点是其 内存集群计算,可提高应用程序的处理速度。
在这里插入图片描述

    Spark是Hadoop在2009年在UC Berkeley的Matei Zaharia的AMPLab中开发的子项目之一。它是在2010年根据BSD许可开放源代码。它于2013年捐赠给Apache软件基金会,2014年2月成为顶级Apache项目。

官网:http://spark.apache.org/

01_Spark 风雨十年 [了解]

    Apache Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Spark中的Job中间输出和结果可以保存在内存中,从而不再需要频繁读写磁盘,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Spark是一个开源的大数据处理框架,它可以在分布式计算集群上进行高效的数据处理和分析。Spark的特点是速度快、易用性高、支持多种编程语言和数据源。Spark的核心是基于内存的计算模型,可以在内存中快速地处理大规模数据。Spark支持多种数据处理方式,包括批处理、流处理、机器学习和图计算等。Spark的生态系统非常丰富,包括Spark SQL、Spark Streaming、MLlib、GraphX等组件,可以满足不同场景下的数据处理需求。 ### 回答2: Spark是一个分布式计算框架,其出现是为了解决Hadoop MapReduce计算模型中的许多性能问题。与MapReduce相比,Spark的计算速度更快,因为它可以在内存中缓存数据并使用更高效的调度算法。此外,Spark还支持多种语言,包括Scala、Java、Python和R等。 Spark有多个模块,包括Spark Core、Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX等。Spark Core是Spark的基本组件,在其中实现了RDD这种抽象数据结构,它可以将数据分布在多台计算机上,从而实现分布式计算。Spark SQL提供了用于处理结构化数据的API和查询语言,它允许将Spark与现有的SQL工具和数据源一起使用。Spark Streaming可以在实时流处理中使用Spark来处理数据,并提供了与常见的消息队列和流处理系统的无缝集成。Spark MLlib提供了许多机器学习算法,可以在分布式环境中进行大规模的机器学习Spark GraphX是用于图计算的组件,可以用于处理较大的网络图和社交网络图等。 Spark可以在各种场景下使用,例如大型金融数据分析、人工智能、机器学习和图计算等领域。与Hadoop相比,Spark具有更快的速度、更轻量的资源消耗和更广泛的开源社区支持,已经成为许多大规模数据分析和处理项目的首选技术之一。 总之,Spark是一个功能强大的分布式计算框架,具有快速、灵活和多语言支持等特点,并且在实际应用中表现出色,是大数据学习中不可或缺的重要技术之一。 ### 回答3: Spark是一个快速、通用、分布式计算引擎,可以在大规模数据集上进行高效的数据处理。Spark是基于内存的计算引擎,可以将数据存储在内存中,从而提高计算速度。Spark支持多种编程语言,包括Java、Scala、Python和R,因此很容易上手,并且可以适应各种应用场景。 Spark的核心组件包括Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX等,在处理不同类型的数据上都具有很强的适应性。Spark SQL可以处理结构化数据,Spark Streaming可以实现实时数据处理,Spark MLlib可以进行机器学习任务,Spark GraphX可以处理图形数据。此外,Spark还提供了一个交互式的shell,方便用户测试和调试代码。 在分布式环境下,Spark使用集群模式进行计算。集群中的每个节点都有自己的内存和CPU资源,Spark通过将任务分发到不同的节点上进行并行计算以提高计算速度。Spark还提供了一些高级特性,如广播变量、累加器和检查点等,以提高计算性能和可靠性。 在大数据处理方面,Spark有着广泛的应用场景。例如,Spark可以用于数据清洗和转换、数据仓库构建、实时数据处理和机器学习等任务。Spark还支持多种数据源,包括关系型数据库、Hadoop HDFS、NoSQL数据库和云存储等,这些数据源都可以与Spark集成,以进行数据分析和处理。 总之,Spark是一个非常重要和流行的大数据处理工具,它有强大的功能和广泛的应用场景。对于想要学习大数据处理的人来说,掌握Spark是必不可少的。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值