自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Spark之RDD简易版总结

如果做数据聚合redueByKey的效率更好,因为可以先聚合后shuffle再最终聚合,传输的IO更小。转换算子的返回值100%是RDD,而Action算子的返回值100%不是RDD。或者读取数据的方式创建(TextFile\WholeTextFile)转换算子是懒加载的,只有遇到Action才会执行。尽量不要增加分区,可能破坏内存迭代的计算管道。通过并行化集合的方式(本地集合转分布式集合)ACTION就是转换算子处理链条的开关。foreachPartitions不带。不会将结果发送到Driver。

2024-06-13 18:07:46 526

原创 启动hive

5.启动metastore服务(后台启动方式)一、启动metastore。1.切换到hadoop用户。3.启动hadoop服务。2.切换到hive目录。

2024-06-11 23:28:33 363

原创 4040、8080和18080的区别

18080:默认是历史服务器的端口,由于每个程序运行完成后,4040端口就被注销了,在以后想回看某个程序的运行状态就可以通过历史服务器查看,历史服务器长期稳定运行,可供随时查看被记录的程序的运行过程。4040:是一个运行的Application在运行的过程中临时绑定的端口,用来查看当前人任务的状态。4040被占用会顺延到4041、4042等。8080:默认是StandAlone下,Master角色(进程)的WEB端口,用来查看当前Master(集群)的状态。

2024-05-29 16:21:41 329

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除