1.前因后果
在网上看到了一种用Spark求平均值的算法,自己写了下,修改了一些错误,我这是能直接run起来的版本。我会在本文中对这段代码进行详细的讲解,以加强对reduceByKey用法的印象。耐心看完,保证你对reduceByKey算子理解且不会忘了。
首先把这位老哥测试的原始数据给大家:
FFF 578 GGG 839 EEE 566 AAA 815 AAA 334 FFF 268 BBB 963 FFF 173 EEE 160 EEE 309 AAA 131 AAA 312 GGG 472 BBB 78 AAA 80 FFF 968 EEE 774 GGG 960 FFF 226 CCC 725 GGG 671 CCC 155 AAA 927 BBB 41 EEE 622 BBB 4 BBB 715 CCC 201 GGG 131 EEE 16 EEE 872 GGG 44 EEE 71 AAA 303 FFF 39 BBB 410 CCC 349 CCC 401 AAA 53 EEE 189 GGG 411 EEE 580 AAA 215 CCC 355 EEE 470 FFF 227 GGG 501 AAA 753 CCC 385 DDD 239 BBB 146 CCC 897 CCC 670 DDD 778 AAA 993 CCC 757 CCC 802 FFF 159 AAA 841 BBB 273 DDD 317 DDD 483 FFF 482 FFF 620 CCC 415 FFF 142 EEE 462 AAA 783 GGG 452 BBB 258 AAA 752 EEE 483 BBB 0 BBB 242 DDD 743 GGG 175 EEE 308 AAA 516 BBB 971 BBB 280 DDD 774 FFF 791 GGG 479 CCC