spark读取csv文件的方法

大数据 专栏收录该内容
3 篇文章 0 订阅

1.SparkSession:

training = spark.read.format("csv").options(header='true',inferschema='true',encoding='gbk').load(r"hdfs://localhost:9000/taobao/dataset/train.csv")

2.SparkContext

# 加载数据    封装为row对象,转换为dataframe类型,第一列为特征,第二列为标签
training = spark.sparkContext.textFile("hdfs://localhost:9000/taobao/dataset/train.csv").map(lambda line:line.split(',')).map(lambda p:Row(**splitDF(p))).toDF()
  • 0
    点赞
  • 0
    评论
  • 0
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 数字20 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值