1、安装pyspark并测试
2、安装jupyter notebook和findspark
3、安装pycharm
(1)我的文件源在(~/Downloads)
随后会显示一个接受用户使用条款的窗体,勾选同意并继续。
(2)选择PyCharm初始窗体左侧的Projects选项,然后单击右侧的NewProject按钮启动新建Python项目,项目创建完毕,PyCharm会切换至项目开发窗体
出现以下界面我们再配置
最后出现的界面
4、配置pycharm
(1)在打开的代码编辑器中将main.pv文件的原有代码全部清除,输入下面的Spark测试代码
以上代码的含义
注意:与PvSparkShell、Python、JupyterNotebook等交互式编程环境不同的是,PyCharm在运行代码时不能直接通过变量名将它们的内容打印显示,必须使用print(函数)
5、测试
代码准备完毕,现在可以在PyCharm的源代码编辑器任意空白位置单击鼠标右键,在弹出的快捷菜单中选择Run'x××'命令(x×x代表要运行的文件名),就会启动main.pv程序的执行
最后出现的界面