首先,若能想到这个问题,说明你就在思考。回到问题本质,rdd是弹性分布式数据集,其定义是什么,不做赘述。若真想完成删除rdd的某几行数据,那就使用filter函数,自己写函数,将不符合条件的行过滤掉即可!
下面我提供一个思路(pyspark代码)
delcomments = ["嗯嗯嗯嗯", "啦啦啦", "买买买买"]
def delcom(line):
for i in delcomments:
if i in line:
return 1
return 0
comment = comment.filter(lambda line: delcom(line) != 1)