其中不同场景下的ANR问题情况不大相同,需要具体情况具体分析,此处就不展开详细描述。
3、ANR问题难点及破题思路
3.1 ANR难点
用户在应用内的绝大部分操作,比如按钮点击,加载资源,页面跳转等操作,都需要有App的主动反馈,但ANR发生时,在用户等待数秒后,仅会弹出一个“应用无响应”的弹窗给用户,这会给用户带来“应用难用”的感觉,极其影响用户体验。
但是,现网中的ANR问题又很难处理,问题包括但不限于:
-
平时的测试难以覆盖,毕竟ANR经常出现在老设备、弱网络环境的场景下,测试难以做到全场景覆盖。
-
对于现网应用的ANR问题,如果问题非必现,则定位难度较高,需要有可以复现问题的实际设备在身边,才能获取到具体日志trace等信息。
-
ANR问题定位复杂,影响因素多,一些新负责定位ANR问题的同学,上手困难,问题解决比较依赖经验。
3.2 ANR处理新方案
除了依赖现有传统的ANR问题定位经验,配合第三方应用监控平台、进行ANR问题的处理,也是方便快捷的ANR处理手段。
提升用户体验迫在眉睫,但ANR问题对用户体验影响大, 定位解决ANR问题老大难,针对这个需求痛点,越来愈多的第三方开始研究并对外提供应用性能监控工具。
**性能管理(App Performance Management,简称APM)**是华为AppGallery Connect质量系列服务中的其中一项,提供分钟级应用性能监控能力,其ANR分析功能,更是解决ANR问题定位与处理的最佳搭档。使用AGC性能管理服务监控应用ANR,能够为您带来以下好处:
1.实时监控现网应用ANR,现网应用ANR趋势全掌握。
2.ANR现场信息自动采集和展示,大部分情况无需复现,在线定位问题。
3.通过APM页面,定位思路系统化,快速上手ANR问题定位,及时解决问题。
4、ANR问题解决案例整理
接下来以华为AGC性能管理服务为例,介绍配合AGC性能管理服务,如何快速定位典型的ANR问题。
4.1 案例(一):死锁导致的ANR问题定位
4.1.1 发现问题
在华为AGC控制台的我的项目-质量-性能管理页面,在“ANR分析”页签下,发现排在第一位的“用户ANR率”高达16.67%,决定优先解决该类ANR问题。
4.1.2 定位问题
点开TOP排行榜中该类问题卡片,进入了该类“ANR问题详情”页面,进一步查看分析该ANR 问题的数据报告。
在这个“ANR问题详情”页面中,分析用户数分布饼图,发现该类ANR问题在“应用版本2.0”、“手机型号HUAWEI VOG-AL10”、“系统版本10”这三个条件下,ANR影响的用户数最多。
在报告下方的“发生记录”中,找到满足这三个条件的发生记录,点击“查看详情”准备针对具体的问题进行分析。
(1) 分析系统资源状态
首先,通过报告,发现该问题发生时,CPU占用是20%、IO占用是0%、未发生过低内存、应用被分配堆是26.50MB、应用已用堆是8.69MB,线程数是61,从系统资源来看,未出现明显的异常,如下图所示:
因为ANR问题原因可以分为两大类,一是系统资源不足导致,二是自身代码逻辑导致,综合以上系统资源信息,该ANR问题不是由于系统资源不足导致,那么分析该ANR问题思路转变为:该ANR问题由自身代码逻辑导致,接下来,我们顺着该思路分析这次的ANR问题。
(2) 查看主线程状态:发现ANR代码片段
自身代码逻辑导致ANR问题,其主要分析思路是查看主线程堆栈及线程状态,我们在性能管理页面上“主线程堆栈”页签中能够找到问题堆栈,发现该问题发生时,主线程处于获取锁状态,到此我们能够得出结论:该ANR问题是因为主线程一直在等待锁资源,而被阻塞,导致了后续输入事件未被响应,从而触发了应用的“Input dispatching timed out”类型的ANR。
查看具体的堆栈信息,我们找到了ANR问题代码片段,发现死锁是发生在“com.aiops.hiperformance.MainActivity.dispatchActivityDestroyed”调用中。查看代码发现,死锁发生在“mLock.readLock().lock()”函数中。
通过在代码中搜索mLock加锁代码的调用,发现了仅在MainActivity文件中,才会存在“mLock.readLock.lock()”代码, 由此判断,异常代码仅存在于MainActivity中,因此我们缩小了问题代码范围。 在正在的代码编写过程中,锁的申请与释放已经成为一种编码习惯,如果锁未释放,可能是在释放锁之前,出现了某种我们编码未考虑的异常,导致锁未释放或释放失败。 由此分析,我们接下来尝试使用“找到ANR问题发生之前,应用是否有异常发生”的思路,继续分析。
我们先找到申请锁动作开始时间点,由阻塞动作开始时间点往前分析,寻找异常信息。我们切换到“ANR信息”页签, 发现主执行队列首元素在5.5s前已经存在,ANR发生时间是“2020-09-27 09:48:27”, 因此我们可计算出获取锁动作大概是在“2020-09-27 09:48:21”发生。
(3) 查看应用日志
接下来,我们把页签切到“系统日志”中,我们目前知道锁获取动作在“2020-09-27 09:48:21”左右发生。我们接下来仅需要在日志中,从该时间点往前分析,看是否由相关异常,是导致该锁未被释放的关键因素。
我们发现在“09:48:18.365”时系统抛出了“OutofBoundsException”异常,并且打印了异常堆栈,我们发现,该异常就出现在MainActivity,也就是我们之前的问题代码范围中,我们通过该堆栈,找到了异常代码。
发现在“getShareDataInterceptor”调用时,抛出了“越界异常”,导致了“mLock.readLock”未被释放,由此我们已经知道导致该ANR问题的具体原因:异常场景导致锁资源未被释放,从而造成了主线程出现死锁。
4.1.3 解决问题
为了修复了该问题,我们做了以下措施,解决该问题的同时,预防同类问题发生:
-
分析异常具体原因并修改代码,防止越界异常再次出现。
-
捕获该异常,保护代码在资源释放前被异常抛出。
-
排查其他代码,在资源释放前,加上保护,保证资源及时释放。
4.2 案例(二):IO资源不足导致ANR问题定位
4.2.1 定位问题
直奔问题核心,直接进入“单次ANR问题” 页面,去分析问题,强化我们借助性能管理服务定位ANR问题思路。
(1)分析系统资源状态.
首先,通过报告,发现该问题发生时,CPU占用是100%、IO占用是84%、未发生过低内存、应用被分配堆是26.50MB、应用已用堆是8.69MB,从系统资源来看,CPU占用和IO占用出现明显异常,如下图所示:
由定位大部分ANR问题经验可知,该ANR问题是由于系统资源不足导致,那么分析该ANR问题思路为:找到自身应用程序ANR代码片段,分析否能够优化代码,在高IO情况下,不触发ANR。
(2)查看主线程状态:发现问题原因
我们切换到“主线程堆栈”页签,观察主线程代码。
通过观察主线程堆栈,我们发现了一个存在问题的地方,主线程里面直接在做数据库操作,在系统IO高的情况,此操作必定会导致主线程被阻塞。我们通过堆栈找到对应的代码。
由此我们确认,在代码中存在访问SQLite的操作。这时候有经验的开发者已经知道,问题能够通过优化解决,仅需要将该IO操作放在线程中执行即可。
(3) 查看应用日志
已经在上一环节分析出ANR原因,无需此步骤。
4.2.2 解决问题
我们做了以下措施,优化了该问题代码,预防ANR问题发生。
4.3 案例(三):主线程死循环导致ANR问题定位
4.3.1 定位问题
话不多说,直接到“单次ANR问题”,固化问题定位思路。
(1)首先,通过报告,发现该问题发生时,CPU占用是25%、IO占用是0%、未发生过低内存、应用被分配堆是18.01MB、应用已用堆是8.08MB,线程数是43,从系统资源来看,均未出现明显异常,如下图所示:
由定位大部分ANR问题经验可知,该ANR问题大概率不是由于系统资源不足导致,那么分析该ANR问题思路转变为:该ANR问题由自身代码逻辑导致,接下来,我们顺着该思路分析这次的ANR问题。
(2)查看主线程状态:发现问题原因
自身代码逻辑导致ANR问题,其主要分析思路是查看主线程堆栈及线程状态,我们在性能管理页面上“主线程堆栈”页签中能够找到问题堆栈。
发现该问题发生时,发现主线程堆栈在getActivity中被阻塞,主线程处于“SUSPENDED”状态。这时我们通过堆栈,找到问题代码。
[图片上传失败…(image-675161-1604287332239)]
通过代码分析,怀疑主线程在该处出现死循环。我们知道如果应用程序出现死循环会导致应用程序的CPU用户态时间占用异常升高,我们知道“ANR信息”页签中记录了ANR发生时的各进程的CPU占用信息,于是我们在页面上切换到“ANR信息”页签。
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数Android工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Android移动开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Android开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加V获取:vip204888 (备注Android)
总结
最后对于程序员来说,要学习的知识内容、技术有太多太多,要想不被环境淘汰就只有不断提升自己,从来都是我们去适应环境,而不是环境来适应我们!
这里附上上述的技术体系图相关的几十套腾讯、头条、阿里、美团等公司20年的面试题,把技术点整理成了视频和PDF(实际上比预期多花了不少精力),包含知识脉络 + 诸多细节,由于篇幅有限,这里以图片的形式给大家展示一部分。
相信它会给大家带来很多收获:
当程序员容易,当一个优秀的程序员是需要不断学习的,从初级程序员到高级程序员,从初级架构师到资深架构师,或者走向管理,从技术经理到技术总监,每个阶段都需要掌握不同的能力。早早确定自己的职业方向,才能在工作和能力提升中甩开同龄人。
一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
己的职业方向,才能在工作和能力提升中甩开同龄人。
一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
[外链图片转存中…(img-BAw0hbns-1712687862153)]