RDD数据清洗-变压器

00的小尾巴

已于 2022-05-22 15:38:28 修改

阅读量366

点赞数

分类专栏： spark 文章标签： spark 大数据 python

于 2022-05-22 14:05:54 首次发布

本文链接：https://blog.csdn.net/qq_51697761/article/details/124909988

版权

spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

进行数据清洗：

transformer.py

from pyspark import SparkContext

def main():
    sc=SparkContext(appName="tranformer_counter")
    raw=sc.textFile("file:///root/spark/transformer.csv")
    rdd=raw.map(lambda x:x.split(",")[1:3])\
        .map(lambda x:(x[0],int(x[1])))\
        .map(lambda x:(x[0],"S" if x[1]<630 else "M" if x[1]<8000 else "L"))\
        .distinct()\
        .map(lambda x:(x[1],1))\
        .reduceByKey(lambda x,y:x+y)\
        .sortByKey()
        #只保留第2和第3的数据
        #将数据变成（key，value）
        #进行数据的划分，小S中M大L
        #去重
        #计数
        #将数据变成（key，1）
        #进行计数
        #按照数量排序
    print(rdd.collect())
    sc.stop()

if __name__=="__main__":
    main()

打开一个窗口

运行：spark-submit transformer.py

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

00的小尾巴

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD数据清洗-变压器

进行数据清洗：transformer.pyfrom pyspark import SparkContextdef main(): sc=SparkContext(appName="tranformer_counter") raw=sc.textFile("file:///root/spark/transformer.csv") rdd=raw.map(lambda x:x.split(",")[1:3])\ .map(lamb...
复制链接

扫一扫