1.hdfs中没有spark文件夹以及a.txt文件
[root@hdp-1 bin]# hadoop fs -mkdir /spark
[root@hdp-1 bin]# hadoop fs -touchz /spark/a.txt
[root@hdp-1 bin]# echo “hello you hello me” | hadoop fs -appendToFile - /spark/a.txt
[root@hdp-1 bin]# hadoop fs -cat /spark/a.txt
hello you hello me
2.sc.textFile("/spark/hi.txt")找不到hdfs上的文件的问题
sc.textFile(“hdfs://hdp-1:9000/spark/a.txt”).flatMap(.split(",")).map((,1)).reduceByKey(+).saveAsTextFile(“hdfs://hdp-1:9000/spark/out”)
3.配置文件
yarn.nodemanager.vmem-check-enabled
false
Whether virtual memory limits will be enforced for containers
yarn.nodemanager.vmem-pmem-ratio
4
Ratio between virtual memory to physical memory when setting memory limits for containers
4.线程“main”中的异常java.lang.Exception:当使用master“yarn”运行时,必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR.
解决办法:使用Yarn运行spark时,需要在spark-env.sh中添加以下行
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
5.new SparkConf错误原因是pom里hadoop和spark的版本
6.package是失败,报target/clases不存在是因为工程路径中有中文
7.报数组越界的错就是因为少了一台spark的worker,但这具体只因为什么还不清楚