##学习完W3school中python基本后步入pyspark正式学习
DF学习
(DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于,前者带有schema元信息)
自信满满 python XXX.py 报错 :ImportError: No module named pyspark 无法启动
遂更改为:spark-submit xxx.py ,日志报错。
将python脚本通过sh命令启动:
保存启动 sh文件。
yarn中查看demo完成。