DropBox系列-打造车载系统APM框架

最新推荐文章于 2024-01-18 13:34:50 发布

失落夏天

最新推荐文章于 2024-01-18 13:34:50 发布

阅读量1.4k

点赞数 2

分类专栏： # 安卓-开源框架安卓文章标签： java 服务器 html

本文链接：https://blog.csdn.net/rzleilei/article/details/127286409

版权

安卓同时被 2 个专栏收录

149 篇文章 14 订阅

订阅专栏

安卓-开源框架

16 篇文章 7 订阅

订阅专栏

前言：

作者本人负责公司的APM监控模块，因为工作的原因，对ANR，crash等流程研究的比较多，最近在打造APM监控平台的时候，顺带对DropBox的实现原理进行了一定的学习和研究，发现了一些妙用，因此写这篇文章来分享。

本系列分为两篇文章，

1.DropBox系列-安卓DropBox介绍：主要介绍DropBox的一些实现原理。

2.DropBox系列-利用DropBox打造车载系统APM框架：主要介绍利用DropBox打造一个面向所有APP的稳定性监控框架。

PS：本文的代码以安卓9（SDK=28）的源码来介绍，因为目前车载开发基本上都是以安卓9为基础来定制的，而且DropBox对于那些拥有系统权限的APP来讲意义更大一些。

一.车载系统APM框架介绍

1.1为什么要单独搞一套APM框架

为什么要做单独搞一套APM监控框架？直接用现成的bugly，友盟，KOOM不可以吗？为什么要重复的造轮子呢？

我的理解是这样的，如果有合适的轮子，自然是最完美的，但是目前的这些轮子，也许对我们来说并不是最适合的，原因有三，如下：

1.侵入性问题。直接使用现成的APM框架是可以的，但是并不是最好的选择。现有的互联网大厂的APM框架对于APP是有侵入性的，不但影响APP的包体积大小，而且有可能会影响APP性能的，甚至有可能接入监控框架导致出现性能问题，比如接入bugly造成IO异常。

2.完整性问题。单一的某一个框架，并不能完整的记录我们所需要的所有目标。比如bugly只能记录崩溃/ANR(6.0以上ANR功能失效)/错误数量，KOOM专注于内存状态的监控，没有一个大一统的框架可以帮我们监控到所有我们想要的数据。

3.接入成本问题。我们的车机上有一百多个应用，假设一个应用接入bugly需要半天时间（接入+测试 +验证），那么100个应用就需要50个工作日，成本可以见一般。

1.2 APM框架介绍

作为车载系统开发，我们有着定制framework这一得天独厚的优势，所以，我们可以针对freamwork层做一些不影响原有逻辑的注入，来实现对所有APP的APM监控。

车载APM就是基于原理去做的，它作为一个单独的APP存在，使用观察者模式，发现APP应用出现异常的时候，主动去补货异常日志进行上报，从而做一个观察者，对所有的APP应用进行稳定性监控。

二.安卓异常处理机制及指标监控

2.1 java崩溃流程简介

具体流程可以参考这一篇文章，本章只是简介。android源码学习-android异常处理机制_失落夏天的博客-CSDN博客_android 异常处理

安卓应用程序发生异常后，会一层一层的上报，最终上报到Thread的dispatchUncaughtException方法中：

public final void dispatchUncaughtException(Throwable e) {
        Thread.UncaughtExceptionHandler initialUeh =
                Thread.getUncaughtExceptionPreHandler();
        if (initialUeh != null) {
            try {
                initialUeh.uncaughtException(this, e);
            } catch (RuntimeException | Error ignored) {
                // Throwables thrown by the initial handler are ignored
            }
        }
        getUncaughtExceptionHandler().uncaughtException(this, e);
}

initialUeh用来记录崩溃信息，其实现类在安卓中是RuntimeInit.LoggingHandler，用来记录一些崩溃的信息。

而getUncaughtExceptionHandler()返回的是RuntimeInit.KillApplicationHandler，这个就是我们APP中真正去处理崩溃的实现类，我们看一下这个实现类：

private static class KillApplicationHandler implements Thread.UncaughtExceptionHandler {
        private final LoggingHandler mLoggingHandler;

        ...
        public KillApplicationHandler(LoggingHandler loggingHandler) {
            this.mLoggingHandler = Objects.requireNonNull(loggingHandler);
        }

        @Override
        public void uncaughtException(Thread t, Throwable e) {
            try {
                ensureLogging(t, e);
                if (ActivityThread.currentActivityThread() != null) {
                    ActivityThread.currentActivityThread().stopProfiling();
                }

                // Bring up crash dialog, wait for it to be dismissed
                ActivityManager.getService().handleApplicationCrash(
                        mApplicationObject, new ApplicationErrorReport.ParcelableCrashInfo(e));
            }
            ...
        }
        ...
    }

主要做了三件事：

生成错误信息；

通过binder通知到AMS的handlerApplicationCrash方法；

删掉当前进程，完成应用的彻底退出。

AMS的handlerApplicationCrash方法中收到崩溃信息后，会通过DroxBoxManagerSerivice服务完成最终崩溃信息的记录和持久化，最终存储到data/system/dropbox文件夹下，这一块我们就不详细赘述了，我们只要支持，所有APP的崩溃，都会通知到AMS即可。

所以，我们只要在AMS中加上适当的钩子，完成崩溃消息的转发，就可以记录所有APP的java层崩溃（native崩溃另讲，检测机制不一样）。

2.2 ANR监控原理

具体原理可以参考这一篇文章，本章仍是简介。ANR系列之一：ANR显示和日志生成原理讲解_失落夏天的博客-CSDN博客

导致ANR的场景有很多种，比如输入事件无响应，广播事件无响应，Service中超时等等，具体类型和超时时间如下(下图中的某些时间其实是有问题的)。

无论哪种类型的ANR，最终都会通知到AnrHelper.appNotResponding方法中，所以我们从这个流程开始往下看。

经过种种转发，最终的执行逻辑在ProcessErrorSatetRecord方法中，主要会执行下面三大块逻辑：

1.收集ANR信息

2.保存ANR日志

3.弹出ANR显示框

2.3 APP启动速度监控原理

APP启动，主要分为四部分：

Laucher或其它应用通知AMS，显式或者隐式的去启动相应的Activity。

如果Activity所对应的APP进程不存在，则会走进程创建流程，通知Zygote去fork产生对应的进程，APP进程产生后，回调通知AMS。

AMS通知APP一侧去加载对应的APK文件，以及创建和初始化Application及其它必要元素。

AMS通知APP一侧去创建，初始化，以及最终显示Activity。

至此，整个启动流程结束，整个流程的时间可以理解为通俗理解上的冷启动时间。

完整的APP启动流程图如下：

所以，针对开始和结束分别设置一个钩子，那么两者之间的时间差，就是我们所需要冷启动时间了。

开始的事件很容易设置，AMS的中的startActivityWithFeature方法。

结束的事件相对会麻烦一些。因为最后的绘制流程，是APP进程和surfaceFlingger进程的通信，并不经过system_server进程。所以我们这里退而求其次，把APP进程把Window注册到WindowManager的事件作为结束的点，从而求出其中的差值。

这样，和标准意义上的冷启动流程，会有一些误差。这个误差就是Activity在onResume之后，首次measure，layout和draw的时间，这个误差理论上不会很大，除非是十分复杂的多层嵌套布局，或者ViewPager的不当使用。这一块的计算，我们放到后续再进行优化。

2.4 APP绘制卡顿监控

和上面说的监控首次绘制原理一样，APP绘制的流程除了注册Window，其余的渲染，以及vsync信息，都是surfaceFlingger进程来控制的。这一块需要想办法对surfaceFlingger进行一定的注入。这一项，我们一样放到后续进行相关的探索。

2.5 APP运行状态监控

APP运行状态包含很多指标，比如内存使用率，线程数，FD数量等等，这些数量的超标都会导致最终的OOM。KOOM和kensor两个框架都是对这些指标进行监控的。一样，我们放到后续在对这些指标进行相关的探索。

三.实现方案踩坑

3.1 车载系统APM架构设计

按照由简入难的原则，第一期的目标，我们先打算只实现崩溃和ANR两种异常指标的监控。

我们基于对系统代码改动量最小的原则，采用C/S的架构来设计。

首先我们通过一个独立的APP来实现异常信息的采集，分析和上报的工作，这个APP来实现绝大多数的逻辑。而系统侧只负责通知，即发生了异常之后，通知APP即可，不做其他任何的逻辑处理。这样对系统侧的修改就会尽可能的小。整体架构图设计如下：

接下来，我们该尝试，系统侧发现了异常之后，如何通知APP了。

3.2 和系统通讯方案尝试

方案1：信号量通讯

ANR系列之一：ANR显示和日志生成原理讲解_失落夏天的博客-CSDN博客

这篇文章中，我们有介绍，发现了ANR之后，系统会去主动采集最近使用进程的java层堆栈状态，而这种采集的通讯使用的是信号量，即系统发送一个信号量，APP侧接受了之后就开始采集自身的堆栈。APP侧并不止发生ANR的那一个，最近使用的APP也都会进行采集。

所以，我们只要在保证我们的APM_APP在最近使用的APP列表中，这样发生了ANR之后，我们只要监听这个信号量就知道发生ANR了。目前友盟和腾讯其实使用的就是这种方案。

优势：系统代码改动量很小，只需要添加一行代码，把APM_APP添加到最近使用列表中。

缺陷：ANR和Crash的实现方案就不统一了，因为Crash无法使用信号量。

因为设计初衷，还是希望crash和anr走一样的机制，这样方便后续的维护，所以信号量这个方案第一个被放弃。

方案2：binder通讯

由上面的流程我们可以知道，只要发生了crash，一定会通知AMS的handlerApplicationCrash方法，而ANR一定会通知AnrHelper的appNotResponding方法。

所以，可以通过APM_APP向系统注册一个binder引用。在上述的两个方法中，系统通过binder引用把异常信息传递给APM_APP。这样，就可以完成异常的监控了。

优势：监听是实时的，而且对于APP侧来说接口是一个，方法统一了。

缺陷：对系统的侵入性较大，而且一旦APM_APP被系统杀死，是完全无感知的。

这个方案需要修改系统源码，虽然作为车载系统开发修改源码是完全可以实现的，但是不利于后续的扩展，因为不同车型的系统源码都要改一遍。而且APM_APP是一个后台服务，一旦低内存被杀死，就不能继续进行异常的监听了。

所以这个方案作为一个备选，看是否有更好的方案再说。

方案3：文件夹监听

我们通过上面的原理流程可以得到，无论ANR还是crash，其实最终都会通知到DropBox去生成对应的异常日志文件。dropbox文件夹地址：data/system/dropbox，所以我们是否可以通过监听这个文件夹的变化，从而实现对异常信息的监听呢？

这样做有几个问题，首先是SELinux权限问题，普通APP是无法完成对这个文件夹的监听的。

但是对于车载系统开发来说问题不大，SELinux权限可以配置的。主动关掉SELinux后在进行尝试，最终发现这个方案不太可行。

首先监听crash文件是没有问题的，但是监听ANR文件的时候，由于ANR的生成文件是一个压缩包，所以通过FileObserver监听的时候，收到ANR类型的压缩文件会导致监听完全失效。而且这个方案和方案2存在一样的问题，一旦APM_APP进程挂掉，是无感知的，就无法监控后面异常信息了。

方案4：动态广播

通过上一篇文章的阅读

https://blog.csdn.net/rzleilei/article/details/128328967

我们知道dropbox完成异常信息的存储之后，会发送一个DropBoxManager.ACTION_DROPBOX_ENTRY_ADDED类型的广播，所以，我们只要注册一个广播接收器来接受这个广播，这样收到了这个广播之后，我们在去主动读取dropbox文件夹下对应的异常文件，就可以知道具体的异常信息了。

说干就干，主动尝试了一把，动态广播的方式是可以的。但是静态广播的方式，会提示：Background execution not allowed: receiving Intent错误。权限的问题，哪怕已经申请了对应的权限，还是不行。

动态广播的话，还是存在APM_APP进程被杀死的场景。但是这已经是一个很好的方向了。因为这个方案对系统侧是0侵入，所以完全不用考虑适配不同车机系统的场景。而且crash和ANR的异常类型上报统一是完全可以保证的。

方案5：静态广播

静态广播会在发送广播的时候创建对应的进程，所以是可以保活的，因为这无疑是最理想的方向。既然上面说到会提示权限的问题，那么我们就尝试去解决静态广播权限的问题。

具体的错误信息如下：

12-09 16:58:31.732  1251  1296 W BroadcastQueue: Background execution not allowed: receiving Intent { act=android.intent.action.DROPBOX_ENTRY_ADDED flg=0x10 (has extras) } to com.xxx.apm/.broadcast.DropBoxBroadcast

报错的代码如下：

if (!skip) {
            final int allowed = mService.getAppStartModeLocked(
                    info.activityInfo.applicationInfo.uid, info.activityInfo.packageName,
                    info.activityInfo.applicationInfo.targetSdkVersion, -1, true, false, false);
            if (allowed != ActivityManager.APP_START_MODE_NORMAL) {
                // We won't allow this receiver to be launched if the app has been
                // completely disabled from launches, or it was not explicitly sent
                // to it and the app is in a state that should not receive it
                // (depending on how getAppStartModeLocked has determined that).
                if (allowed == ActivityManager.APP_START_MODE_DISABLED) {
                    Slog.w(TAG, "Background execution disabled: receiving "
                            + r.intent + " to "
                            + component.flattenToShortString());
                    skip = true;
                } else if (((r.intent.getFlags()&Intent.FLAG_RECEIVER_EXCLUDE_BACKGROUND) != 0)
                        || (r.intent.getComponent() == null
                            && r.intent.getPackage() == null
                            && ((r.intent.getFlags()
                                    & Intent.FLAG_RECEIVER_INCLUDE_BACKGROUND) == 0)
                            && !isSignaturePerm(r.requiredPermissions))) {
                    mService.addBackgroundCheckViolationLocked(r.intent.getAction(),
                            component.getPackageName());
                    Slog.w(TAG, "Background execution not allowed: receiving "
                            + r.intent + " to "
                            + component.flattenToShortString());
                    skip = true;
                }
            }
        }

flag=16，package=nulll,comonent=null。所以唯一的判断条件就是isSignaturePerm(r.requiredPermissions)。requiredPermissions其实应该是READ_LOGS的权限，但是APM_APP即使申请到了这个权限，仍然会提示这个错误。所以我们看一下isSignaturePerm这个方法：

final boolean isSignaturePerm(String[] perms) {
        if (perms == null) {
            return false;
        }
        IPackageManager pm = AppGlobals.getPackageManager();
        for (int i = perms.length-1; i >= 0; i--) {
            try {
                PermissionInfo pi = pm.getPermissionInfo(perms[i], "android", 0);
                if ((pi.protectionLevel & (PermissionInfo.PROTECTION_MASK_BASE
                        | PermissionInfo.PROTECTION_FLAG_PRIVILEGED))
                        != PermissionInfo.PROTECTION_SIGNATURE) {
                    // If this a signature permission and NOT allowed for privileged apps, it
                    // is okay...  otherwise, nope!
                    return false;
                }
            } catch (RemoteException e) {
                return false;
            }
        }
        return true;
    }

系统竟然判断的是android包名是否具有这个权限，有点扯，不理解为什么判断的是系统包名，而不是APP包名。但是没有办法我们只能另外找办法。

继续往上照，发现allowed != ActivityManager.APP_START_MODE_NORMAL这里还有一个判断。也就是说allowed如果等于ActivityManager.APP_START_MODE_NORMAL，就不用走后面的判断了，我们朝着这个方向进行尝试。

最终发现在ActivityManagerService的appRestrictedInBackgroundLocked方法中有这样一个判断：

// Apps that target O+ are always subject to background check
        if (packageTargetSdk >= Build.VERSION_CODES.O) {
            if (DEBUG_BACKGROUND_CHECK) {
                Slog.i(TAG, "App " + uid + "/" + packageName + " targets O+, restricted");
            }
            return ActivityManager.APP_START_MODE_DELAYED_RIGID;
        }

targetSDK>=26，就直接返回APP_START_MODE_DELAYED_RIGID。所以，我们把APM_APP的targetSDK改为25在进行尝试，发现果然可行。

至此，和系统通讯方案的尝试终于有了结论，我们最终决定使用静态广播的方式来实现，它具有以下几大优势：
1.保活。哪怕APM_APP被杀死，下次广播来的时候系统也会帮忙重新启动对应进程。

2.对系统完全没有侵入性，0改动，移植到其它车型的系统也完全可用。

3.ANR和CRASH上报方案是一致的，不需要区别对应，方便后续维护管理。

四.车载系统APM框架设计和实现

前面探索出来了实现的原理，则最终实现起来就简单的多，

主要分为3个模块：

1.dropbox广播注册者：负责接收异常信息；

2.DB存储：负责记录已经上报过的日志信息；

3.上报模块：负责具体异常信息的上报。

4.1 异常信息接收

创建广播接收者

首先，创建一个广播接收者DropBoxBroadcast。

在onReceive方法中，会接受到系统传递过来的两个参数，分别为tag和time。

tag的形式为：data_app_crash或者data_app_anr，

time就是时间戳的形式。

两个参数一组合，就可以得到文件名，两者以tag@time的方式进行组合。

广播接收到，就意味着异常日志文件已经生成完成，我们直接去解析对应的异常文件，得到我们想要的参数进行上报即可。

需要注意的是，ANR类型的日志文件是gz格式的，需要进行解压缩后才能读取和使用。

广播注册

然后，通过静态注册的方式注册一个广播接收者，action为android.intent.action.DROPBOX_ENTRY_ADDED。

<receiver
            android:name=".broadcast.DropBoxBroadcast"
            android:exported="true">
            <intent-filter>
                <action android:name="android.intent.action.DROPBOX_ENTRY_ADDED" />
            </intent-filter>
        </receiver>