1.在安装环境是出现错误:安装完anaconda出现安装完但是还是显示不是系统内部命令
解决方法:
重新配置anaconda路径:使用命令vim ~/.bashrc配置环境为anaconda配置环境
配置完成后使用source /etc/profile命令重载配置文件环境变量就配置好了
当Jupyter nootbook实现PySpark交互时出现问题
解决方法:
多刷新两遍,问题就莫名其妙好了 (Spark运行需要等会儿,连点两下交互会重复打开Spark,会造成这个报错,所以耐心一点不会出错)
代码错误部分:
1.进行数据清洗的时候出现Java.io报错
解决方法:虚拟机磁盘空间不够进行扩容
2.在进行清洗后的数据进行分析时会出现报错:pyspark : NameError: name 'spark' is not defined
原因:from pyspark.sql import SparkSession:我们导入的时候没有初始化,没有创捷spark对话
解决方法:在代码中加入spark = SparkSession.builder.appName('abc').getOrCreate()创建spark就能解决spark not defined
3.数据可视化jupyter notebook不显示图片
<Figure size 640x480 with 1 Axes>问题
解决方法:在代码头部添加%matplotlib inline即可