2022-02-09大数据学习日志——PySpark——Spark框架概述

最新推荐文章于 2024-01-31 15:15:44 发布

王络不稳定

最新推荐文章于 2024-01-31 15:15:44 发布

阅读量1.6k

点赞数 2

文章标签： big data spark 大数据

本文链接：https://blog.csdn.net/tingbaobaoo/article/details/122840493

版权

前言部分：知识回顾及课程目标

[前言1]-大数据技术框架

整个大数据技术框架学习，可以划分为4个阶段：离线分析、内存分析、实时存储和实时分析。

# 第1部分、离线分析（Batch Processing）
	分布式协作服务框架Zookeeper
	大数据基础框架Hadoop（HDFS、MapReduce和YARN）
	大数据数仓框架Hive
	大数据辅助框架：FLUME、SQOOP、Oozie和Hue
	# 实战项目：亿品新零售


# 第2部分、内存分析（In-Memory Processing）
	Apache Spark（Environment环境、Core、SQL等），属于批处理，相比MapReduce快
		将分析数据封装到数据结构：RDD（分布式集合），类似Python中列表list，调用函数处理数据
	# 实战项目：一站制造项目或保险项目


# 第3部分、实时存储
	基于Key-Value内存数据Redis
	大数据NoSQL海量数据库HBase
	分布式消息队列Kafka
	# 实战案例：陌陌综合案例
	

# 第4部分、实时计算
	Apache Flink（实时流式计算框架，天猫双十一实时大屏）：Environment、DataStream和Table API & SQL
		数据流封装DataStream，调用函数处理
		Table API和SQL批处理和流计算
	# 实战项目：车联网项目或今日指数项目

[前言2]-Aapche Spark 学习安排

Apache Spark课程学习，从4个大方面，基于Python语言编程开发（又称为PySpark）。

在这里插入图片描述

# 第1方面、Basic Environment（基础环境）：
	Spark 框架安装部署及开发运行，如何在本地模式和集群模式运行，使用spark-shell及PyCharm开发应用程序，测试及打包提交运行集群。
	2天时间


# 第2方面、SparkCore（核心模块）
	数据结构RDD，所有数据封装，分布式集合，处理数据直接调用方法(函数)
	2天时间


# 第3方面、SparkSQL（交互式分析）
	结构化数据处理分析，将数据封装在DataFrame，调用API或者使用SQL分析数据；
	实际企业中使用最多的模块，提供丰富外部数据源
	2天时间

# 第4方面、Spark in Action（实战演练）
	基于Spark框架，进行海量数据分析处理，无论SQL语句还是DSL链式编程
	以案例贯彻，知识巩固
	1天时间

学习目标

Spark第1天，主要学习配置Spark 基础环境
框架概述、快速入门（本地模式）和Standalone 集群
1、Spark 框架概述
2、Spark 快速入门
3、Standalone 集群

Apache Spark是一种闪电般的群集计算技术，专为快速计算而设计。它基于Hadoop MapReduce，它扩展了MapReduce模型以便将其用于更多类型的计算，其中包括交互式查询和流处理。Spark的主要特点是其内存集群计算，可提高应用程序的处理速度。
在这里插入图片描述

Spark是Hadoop在2009年在UC Berkeley的Matei Zaharia的AMPLab中开发的子项目之一。它是在2010年根据BSD许可开放源代码。它于2013年捐赠给Apache软件基金会，2014年2月成为顶级Apache项目。

官网：http://spark.apache.org/

01_Spark 风雨十年 [了解]

Apache Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Spark中的Job中间输出和结果可以保存在内存中，从而不再需要频繁读写磁盘，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

最低0.47元/天解锁文章

王络不稳定

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
2022-02-09大数据学习日志——PySpark——Spark框架概述

前言部分：知识回顾及课程目标[前言1]-大数据技术框架整个大数据技术框架学习，可以划分为4个阶段：离线分析、内存分析、实时存储和实时分析。# 第1部分、离线分析（Batch Processing）分布式协作服务框架Zookeeper 大数据基础框架Hadoop（HDFS、MapReduce和YARN）大数据数仓框架Hive 大数据辅助框架：FLUME、SQOOP、Oozie和Hue # 实战项目：亿品新零售# 第2部分、内存分析（In-Memory Processing）
复制链接

扫一扫