利用pyspark实现spark编程之数据去重及筛选
利用pyspark实现spark编程之数据去重
数据源文件
#zuoye1
# 初始化SparkContext
from pyspark import SparkContext
sc = SparkContext('local', 'remdup')
# 加载两个文件A和B
lines1 = sc.textFile("/usr/local/hadoop/A.txt")
lines2 = sc.textFile("/usr/local/hadoop/B.txt")
# 合并两个文件的内容
lines =
原创
2020-11-18 16:15:47 ·
2202 阅读 ·
0 评论