PySpark大数据分析与应用
文章平均质量分 97
PySpark作为Apache Spark的Python API,融合Python易用性与Spark分布式计算能力,专为大规模数据处理设计。支持批处理、流计算、机器学习和图计算,通过内存计算与弹性数据集优化性能,提供DataFrame API和SQL接口简化结构化数据处理。
Francek Chen
征途漫漫,惟有奋斗!CSDN大数据领域优质创作者,2024博客之星TOP47,阿里云社区专家博主,华为云云享专家。热爱学习大数据与人工智能的相关知识,专注Hadoop、Spark实战,打造了《大数据技术基础》《Python机器学习》等热门专栏,助力行业技术落地。多篇热文登榜TOP,开源项目解析广受好评。以代码为笔,记录成长;以博客为媒,传递价值。关注我,一起畅游于数据变化的世界中,发现更多精彩~~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【PySpark安装配置】01 搭建单机模式的PySpark开发环境(Windows系统)
本文讲解在Windows系统上搭建可以运行PySpark程序的开发环境。包括安装JDK,安装Anaconda,安装Hadoop,安装MySQL,安装Hive,配置PySpark模块等步骤,最后运行Jupyter Notebook。原创 2025-06-09 08:00:00 · 1659 阅读 · 58 评论 -
【PySpark大数据分析概述】03 PySpark大数据分析
本文介绍了PySpark大数据分析。PySpark是Apache Spark为Python提供的API,结合Python库与Spark能力,支持单机与集群运行,包含多个核心类与模块,如公共类、SQL模块、Streaming模块、MLlib和ML包等。原创 2025-04-12 15:14:14 · 2080 阅读 · 51 评论 -
【PySpark大数据分析概述】02 Spark大数据技术框架
本文讲解Spark大数据技术架构。Spark是开源通用并行计算框架,具多种特性,有特定运行架构与流程,核心是RDD,生态圈以Spark Core为中心,满足多样计算需求。原创 2025-04-06 10:06:59 · 2435 阅读 · 20 评论 -
【PySpark大数据分析概述】01 大数据分析概述
本文讲解大数据分析概述。大数据指具有海量、多样、高速、低价值密度等特征的数据,需先进技术处理。其分析流程涵盖采集、预处理、建模评估,应用于个性化推荐、预测分析等领域,核心技术包括Hadoop、Spark等分布式框架。原创 2025-03-28 14:46:42 · 1645 阅读 · 11 评论
分享