7-9Spark算子和sparksql读表时去除表头

spark 算子利用filter 算子过滤

//读取文件

 val fileRdd = sc.textFile("/app/data/exam/meituan_waimai_meishi.csv")

//filter 算子过滤val spuRDD = fileRDD.filter(x=>x.startsWith("spu_id")==false)

sparksql 读表的时候直接去除

 //写法1
val spuDF = spark.read.format("csv")
.option("header",true)
.option("inferSchema",true)
.load("hdfs://端口/exam/exam1/meituan_waimai_meishi.csv")

//写法2

 val rdd = spark.read.option("header","true").
csv("hdfs://192.168.226.131:9000/app/data/exam/meituan_waimai_meishi.csv")
      .cache()

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值