spark
文章平均质量分 50
冬雪落江南
整理一些笔记、测试题、作业等乱七八糟的东西
展开
-
【spark-Spark编程-笔记3】join、zip、combineByKey、计算学生平均成绩
目录 使用join连接两个RDD 用zip组合两个RDD 使用combineByKey合并相同键的值 计算学生平均成绩 使用join连接两个RDD 选取rdd1与rdd2共有的键进行连接, 因为k3键只在rdd1中,rdd2中没有k3,所以k3不进行连接 同理: 用zip组合两个RDD 这里要求两个RDD的partition(分区)数量以及元素数量都相同,否则会抛出异常(两个一维) 同理:一个一维,一个二维连接 使用combineByKey合并相同键的值.原创 2022-04-25 09:39:09 · 2628 阅读 · 1 评论 -
【spark-Spark编程-笔记2】sc.textFiIe、mapValues、KeyBy、groupByKey、reduceByKey、计算每个学生总成绩
目录 map mapValues KeyBy groupByKey reduceByKey 计算每个学生的总成绩 map map是对RDD 中的每个元素都执行一个指定的函数来产生一个新的RDD原创 2022-04-25 09:28:32 · 2109 阅读 · 0 评论 -
安装spark笔记(windows)
已安装的jdk版本:1.8.0_251 下载文件 在D盘创建BigDataProgram文件夹 下载并解压spark-2.4.0-bin-hadoop2.7.tgz到BigDataProgram文件夹 下载并解压Hadoop-2.7.7.tar.gz到BigDataProgram文件夹 下载hadoop2.7.x_winutils_exe&&hadoop_dll.zip 将hadoop2.7.x_winutils_exe&&hadoop_dll...原创 2022-04-19 20:01:43 · 2049 阅读 · 0 评论