PySpark简明教程 01专栏简介

24 篇文章 27 订阅 ¥9.90 ¥99.00
本文是PySpark简明教程的开篇,旨在打破只有Scala和Java开发Spark的思维定势。教程强调Python在Spark中的重要性,特别是SparkSQL和DataFrame,让只会Python的开发者也能轻松进行大数据处理。内容包括基础篇和进阶篇,覆盖从入门到性能调优的全面知识。
摘要由CSDN通过智能技术生成

目录

原则和风格

教程的目的

本教程的优势

内容设置


简介

简明:意思是简单而明了。
PySpark:就是用Python这门语言工具去驾驭Spark这个大数据计算引擎。

原则和风格

就是简单直接、不拖泥带水,符合开发者审美和工作需要。
所以,不会面面俱到。因为,借鉴二八原则,工作中只需掌握20%的知识点(pyspark),就能解决80%的问题(大数据计算和分析场景)。

教程的目的

打破只有Scala和Java才能开发spark应用程序的思维定势。


Spark从诞生那天起就有人为Scala布道,说Spark是用Scala开发的,使用Scala能充分发挥底层优势,写出更高性能的程序。Java也可以,因为Java和Scala都运行在jvm上。


所以,上面这句话将好多不了解Scala和Java的朋友们挡在了Spark的门外!
还有好多想进入大数据行业的初学者,为了学习Spark,先去学习Scala和Java的语法,然后学了半天之后,有些人就沉迷于Scala和Java的语法糖中不能自拔,而忘记了自己目的是学习Spark。
还有好多算法工程师和数据分析师,可能大部分是Python高手,但如果重头去学习Scala和Java,可能大部分人会迷惑于Scala和Java的语法糖和奇特的简写,还没真正使用Spark,就已经退缩了。
其实,经过这么多年的发展,Spark也在进化,只有提供和支持更多的语言API,才能发展的更好。更何况大部分数据相关的研发人员都是Python高手和SQL高手,所以,SparkSQL和DataFrame的出现,为母语是Python的开发者带来了福音,Spark进化出了高级API和编程范式,大家不再用局限于RDD进行开发了,而是能更关注业务场景、分析策略。

所以,如果你只会Python,或者你只会SQL,你一样可以体验Spark计算引擎给你带来的快乐!

本教程的优势

『新』且『实用』

新:实践Spark最新的编程范式,带你体验更加友好、顺畅的高级API,降维打击!

本教程来源于生产实践,而非象牙塔,实用而简单明了。
初学者看了可以直接上手,老手看了如获至宝!
所有例子都可以直接ctrl+c 和ctrl+v,然后submit和run!

内容设置

专栏分两部分:第一部分基础篇、第二部分进阶篇。

第一部分基础篇:

目标:快速上手操作

PySpark简明教程 01简介

PySpark简明教程 02 pyspark实战 入门例子 

PySpark简明教程 03 SparkSQL、DataFrame和SparkSession

PySpark简明教程 04 Spark加载csv文件parquet文件等数据源

Spark自定义UDF 自定义函数c

聪明的同学可能看过“PySpark简明教程 02 pyspark实战 入门例子 ”,可能就已经豁然开朗了!

第二部分进阶篇:

目标:理解一些原理

Spark shuffle

spark on yarn

Spark官方性能调优指南 1.6版本的优化指南,虽然版本过时,但是对于依然采用RDD编程范式的同学来说依然有借鉴意义。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

只要开始永远不晚

谢谢打赏~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值