PySpark统计字母出现次数的平均值，及利用IPython (Jupyter) Notebook统计datas.csv数据

最新推荐文章于 2023-03-08 14:10:02 发布

free97zl

最新推荐文章于 2023-03-08 14:10:02 发布

阅读量4.6k

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/free97zl/article/details/78880448

版权

本文介绍了如何使用PySpark统计字母出现的平均次数，并展示了在IPython (Jupyter) Notebook中处理csv数据的步骤，包括数据上传、环境配置、启动Notebook以及执行Python脚本进行数据分析。

摘要由CSDN通过智能技术生成

spark：
    步骤：
        1.start-dfs.sh
        2.pyspark
        3.[('a',3),('b',1),('c',4),('d',2),('a',7),('b',3),('c',6),('d',5),('a',4),('c',5),('d',9),('c',7),('d',6)]
        4.求出每个字母后面数字出现的平均值
            map reduceByKey

        第一个如何使上面的数据转换为rdd数据
        a. sc.textFile(path):取出指定txt文件中的数据，并转换为rdd数据
        b. sc.parallelize(可迭代数据）

自定义数据

 datas = [('a',3),('b',1),('c',4),('d',2),('a',7),('b',3),('c',6),('d',5),('a',4),('c

最低0.47元/天解锁文章

free97zl

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
PySpark统计字母出现次数的平均值，及利用IPython (Jupyter) Notebook统计datas.csv数据

spark：步骤： 1.start-dfs.sh 2.pyspark 3.[('a',3),('b',1),('c',4),('d',2),('a',7),('b',3),('c',6),('d',5),('a',4),('c',5),('d',9),('c',7),('d',6)] 4.求出每个字母后面数字出现的平均值
复制链接

扫一扫

专栏目录