大数据
Levy_Y
浩淼宇宙,为何我们在此相遇。
展开
-
hadoop hdfs 基本操作
链接:https://blog.csdn.net/sunshingheavy/article/details/53227581转载 2018-12-19 23:35:45 · 140 阅读 · 0 评论 -
hadoop/spark环境搭建中的坑
1.ip映射问题 /etc/hosts文件中的ip映射关系要正确 2.datanode启动问题 namenode 的id和 datanode的id要对应 解答:http://dblab.xmu.edu.cn/blog/818-2/原创 2018-12-16 22:51:39 · 567 阅读 · 0 评论 -
SparkRDD操作经验
关于“_”的用法 可以指代集合中的每一个元素 // 筛选出可以被2整除的数 a.filter(_%2==0).map(2*_) 注:在reduceByKey中指代的是键值对中的值 参考:https://blog.csdn.net/a627082796/article/details/87880558 cache()方法 将某些经过了复杂计算得到的RDD存入缓存中,避免下次调用时重复计算 // 将...原创 2019-07-19 09:51:31 · 193 阅读 · 0 评论 -
大数据面试题_Spark
文章目录hadoop和spark都是并行计算,那么他们有什么相同和区别简单说一下hadoop和spark的shuffle过程spark集群运算的模式RDD中reduceBykey与groupByKey哪个性能好,为什么cache后面能不能接其他算子,它是不是action操作ReduceByKey是action算子嘛数据本地性是在哪个阶段确定的RDD的弹性体现在什么方面常规的容错方式有哪几种RDD...原创 2019-09-03 21:37:30 · 938 阅读 · 0 评论