spark-yarn模式
–master yarn-cluster
(只需在spark-submit执行时,添加参数)速度慢:
提升cores数(提升并行执行的task);使用spark-rdd,textFile基于本地系统,linux系统,路径格式简介:
//hdfs单个文件夹
val onePath = "hdfs://100.38.101.2:9000//log/month=01/new1.txt"
//hdfs下所有的month文件夹下的所有txt文件(使用通配符*表示)
val monAllPath = "hdfs://100.38.101.2:9000//log/month=*/*.txt"
// hdfs两个文件夹month为10/09下的所有txt文件(使用","隔开)
val morePath="hdfs://100.38.101.2:9000//log/month=10/*.txt,hdfs://100.38.101.2:9000//log/month=09/*.txt"
//读取本地文件
val localPath = "D:/zling/test.txt"
//读取linux系统下文件
val liPath = "/root/zling/test.txt"
//读取路径下的文件
sc.textFile(onePath).map(line => {})
小编会不定时更新,欢迎大家来撩