我有一个python脚本,它目前在我的桌面上运行。它接受一个大约有2500万行(可能是15列左右)的csv文件,并执行逐行操作。在
对于每一行输入,会产生多条输出线。然后将结果逐行输出到一个csv文件中,最终输出约1亿行。在
代码如下所示:with open(outputfile,"a") as outputcsv:
with open(inputfile,"r") as input csv:
headerlist=next(csv.reader(csvfile)
for row in csv.reader(csvfile):
variable1 = row[headerlist.index("VAR1")]
variableN = row[headerlist.index("VARN")]
while calculations not complete:
do stuff #Some complex calculations are done at this point
outputcsv.write(stuff)
我们现在尝试使用pyspark将脚本转换为通过Hadoop运行。
我甚至不知道怎么开始。我正试图解决如何迭代RDD对象,但我不认为这是可以做到的。在
像这样的逐行计算是否适合分布式处理?在