pySpark读写CSV文件、查重并写入CSV文件中

本文介绍了如何使用PySpark读取、处理CSV文件,包括数据查重,然后将结果写回CSV文件。通过实例代码展示了PySpark在数据操作中的应用。
摘要由CSDN通过智能技术生成
前段时间在研究 pySpark 数据处理,深刻地感受到spark的极大魅力。自己是一个初学者,这篇博客也只是简单的完成了几个简单的工作任务,哈哈@@

不说了上代码:

from pyspark import SparkConf,SparkContext import csv from _operator import add import re #!/usr/bin/python # -*- coding: UTF-8 -*- conf = SparkConf().setAppName("Simple").setMaster("local") sc = SparkContext(conf = conf) file1 = open("D:\\lbossdata.CSV","r") f1 = csv.reader(file1)  //打开csv文件将文件的第一行的第一列读入到row1 row1 = [row[0] for row in f1] file1.close() with open("D:\\lbossdata.CSV","r") as file2: f2 = csv.reader(file2) row2 = [row[1] for row in f2] with open("D:\\lbossdata.CSV","r") as file3: f3 = csv.reader(file3) row3 = [row[2] for row in f3]


通第一个方法一样,将其余几行也分别读入到row2\row3,row4,ro

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值