- 博客(3)
- 收藏
- 关注
原创 Spark之RDD简易版总结
如果做数据聚合redueByKey的效率更好,因为可以先聚合后shuffle再最终聚合,传输的IO更小。转换算子的返回值100%是RDD,而Action算子的返回值100%不是RDD。或者读取数据的方式创建(TextFile\WholeTextFile)转换算子是懒加载的,只有遇到Action才会执行。尽量不要增加分区,可能破坏内存迭代的计算管道。通过并行化集合的方式(本地集合转分布式集合)ACTION就是转换算子处理链条的开关。foreachPartitions不带。不会将结果发送到Driver。
2024-06-13 18:07:46 526
原创 启动hive
5.启动metastore服务(后台启动方式)一、启动metastore。1.切换到hadoop用户。3.启动hadoop服务。2.切换到hive目录。
2024-06-11 23:28:33 363
原创 4040、8080和18080的区别
18080:默认是历史服务器的端口,由于每个程序运行完成后,4040端口就被注销了,在以后想回看某个程序的运行状态就可以通过历史服务器查看,历史服务器长期稳定运行,可供随时查看被记录的程序的运行过程。4040:是一个运行的Application在运行的过程中临时绑定的端口,用来查看当前人任务的状态。4040被占用会顺延到4041、4042等。8080:默认是StandAlone下,Master角色(进程)的WEB端口,用来查看当前Master(集群)的状态。
2024-05-29 16:21:41 329
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人