Spark线上日志处理

spark线上日志处理

1、日志产生的背景
  多个spark程序在线上跑,每天打印很多的info日志和业务中的调试日志
2、日志导致的问题
  由于程序中的日志没有控制好,导致磁盘空间很快就被占满了,最终hdfs的datanode和namenode挂掉,最终整个集群瘫痪
3、解决办法
  1)首先将spark的conf目录下log4j.properties默认info级别改成warn级别
  在这里插入图片描述
  2)在spark-submit中指定log4j配置文件,这个是每个excutor需要的配置文件
  在这里插入图片描述
  3)这个配置文件是写死的目录,每台工作的服务器上都要有这个相同目录的log4j文件
总结:线上的日志文件一定要控制好,不然会浪费很多磁盘空间的。对于yarn产生的本地临时文件,是由于spark程序还在跑,所以文件存放在每个excutor下的本地目录中,程序停止后,会将每个excutor日志以及drive下的日志聚合到一个文件中,写入hdfs。正常这些本地目录下产生的日志文件不用删除,如果磁盘受到影响,可以通过写定时任务删除这些日志。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值