趁着今天还没过去:
在这里祝大家新春快乐!
这些是我最近学习Spark遇到的问题和解决办法(适合小白)
1.如何打开Hadoop集群?
答:
开Hadoop集群的话是输入命令即可全部打开:start-all.sh
也可以分开一步步打开比如打开yarn集群(负责资源管理)输入命令:start-yarn.sh
然后再打开hdfs集群(分布式存储系统)输入命令:start-dfs.sh
2.如何打开pychark本地模式(这种情况是单机运行不是集群)?
答:
切换到/export/server/spark/bin(路径因人而异)
目录输入命令:./pyspark
可以输入node1:4040打开网页查看程序运行情况
仅仅输入该命令默认打开单机模式
想要打开pyspark必须先打开hadoop集群
3.如何如何打开pychark(运行在spark集群)?
答:
如果想要打开pychark运行在集群上面要输入集群的地址,比如我现在学习的,开启集群之后,打开网页node1:8080,然后复制上面的地址在终端输入命令:./pyspark --master spark://node1:7077
4.如何打开yarn的历史服务器呢?
答:
输入命令:mr-jobhistory-daemon.sh start historyserver
想要打开spark历史服务器的话输入命令(在spark目录下):sbin/start-history-server.sh
5.如何配置ssh远程用linux集群解释器解释python代码?
答:
先连接对应的节点和用户,再输入用户密码
然后再填写linux里面的python解释器地址,应用确认就成功了,前提是pycharm需要的是专业版(破解版也行)
6.如何提交Spark应用?
答:
将程序代码上传到服务器上,通过spark-submit客户端工具进行提交
注意:
在代码不要设置master,如果设置以代码为准的spark-submit提交工具就无效了
提交程序到集群运行的时候,读取的文件一定是各个机器都能访问到的地址,比如上传到HDFS,如果在Linux本地机器上面的话,需要每一台都要具备这个文件才行
最后:
希望大家,2023年,春节快乐!新岁序开,同赴新程祝愿大家:大展宏“兔”,钱“兔”似锦,扬眉“兔”气,“兔”个健康!新的一年 ,祝你 钱“兔”无忧 、钱“兔”似锦 、“兔”然暴富 、大展宏“兔” 好事成“兔”。
好了,今天的分享就这么多了,有什么不清楚或者我写错的地方,请多多指教!
私信,评论我呗!!!!!!