- 保存文件到HDFS上,发现会分成两个块
from pyspark import SparkContext
sc = SparkContext()
text = sc.textFile("file:///home/hadoop/course/data1.txt")
print(len(text.glom().collect()))
text.saveAsTextFile("/saveTextFile2")
使用第四行代码查看是否是RDD分区的问题,结果显示是2,那可能就是RDD分区的问题
现在将分区分为1,再测试看看最后的结果
转换某一列的类型(对于dataframe):.cast()
读取文件(rdd)sc.textfile()
读取文件(df)spark.read.json()
保存文件(rdd)
保存文件(df)df.write.csv()
分区操作:repartition(n)