2020.03.02-2020.03.37 学习日记总结(文章收藏)
1、scala文章收藏
java程序员学习scala总结:https://www.jianshu.com/p/d24299355a19
2、spark相关文章收藏
Spark中的RDD、DataFrame和DataSet讲解:https://zhuanlan.zhihu.com/p/61631248
Spark RDD和DataSet与DataFrame转换成RDD:https://www.cnblogs.com/leboop/p/9455437.html
(重要)spark dataframe操作集锦(提取前几行,合并,入库等):https://www.cnblogs.com/nucdy/p/6559318.html
JOIN在Spark Core中的使用:https://blog.csdn.net/wawa8899/article/details/81027633
3、maven使用打jar包在集群运行过程(spark/hadoop)
Spark在IDEA中打jar包,并在集群上运行(包括local模式,standalone模式,yarn模式的集群运行):
https://www.cnblogs.com/juncaoit/p/6381562.html
(重要)在IDEA中编写Spark的WordCount程序(当时使用该方法成功打包MR程序):https://www.cnblogs.com/biehongli/p/8462625.html
IDEA+Maven 打jar包:https://blog.csdn.net/branwel/article/details/79918018
4、MapReduce一些代码实例
mapreduce实现数据去重:https://baijiahao.baidu.com/s?id=1651595612083914553&wfr=spider&for=pc
hadoop编写MapReduce例子(附有代码):https://blog.csdn.net/cuicanxingchen123456/article/details/83343329