百亿级日志处理稳定性保证的一些技巧

最新推荐文章于 2022-07-28 16:47:00 发布

jiewuyou

最新推荐文章于 2022-07-28 16:47:00 发布

阅读量962

点赞数 1

分类专栏：开发 MapReduce spark私房菜文章标签：数据报表

本文链接：https://blog.csdn.net/jiewuyou/article/details/73610231

版权

开发同时被 3 个专栏收录

13 篇文章 0 订阅

订阅专栏

MapReduce

6 篇文章 0 订阅

订阅专栏

spark私房菜

6 篇文章 3 订阅

订阅专栏

为了给各个业务出报表，我们每天会处理几百亿条原始日志。例行任务用MR/Spark程序编写，为了保证各业务线在上班前正常看到数据，对例行任务的稳定性提出了要求。由于我们会依赖很多中间层数据，集群偶尔异常、数据存在倾斜等问题，这对我们的程序带来了很大的挑战。针对遇到的问题，采用“兵来将挡，水来土掩”的方案，各个击破

依赖未生成

当天任务依赖的数据，部分是前一天的数据，部分是当天其他任务生成的数据。可以采用这两种方案。

添加监控

依赖的前一天的数据可能没生成。为了避免第二天的例行任务不挂掉，需要在前一天下午到晚上添加监控，如果数据没有按时生成，就发告警。然后由程序的owner来推动数据尽快产生。

function hdfs_check() {
    file=$1
    hadoop fs -test -e ${file}/_SUCCESS
    if [ $? -ne 0 ]; then
        send_mms "[FATAL]-[file_not_exists]-[${file}]" yanghao
    fi
}

function main() {
    date=`date -d "-1day" '+%Y%m%d'`
    hdfs_check  /user/yanghao/device_middle/date=${date}
}