阿里短信回持.net sdk的bug导致生产服务cpu 100%排查

一:背景

1. 讲故事

去年阿里聚石塔上的所有isv短信通道全部对接阿里通信,我们就做了对接改造,使用阿里提供的.net sdk

网址:https://help.aliyun.com/document_detail/114480.html

同事当时使用的是ons-.net v1.1.3版本,程序上线后若干天就会有一次程序崩溃现象,当时也没特别在意,以为是自己代码或者环境出了什么问题,索性就加了一个检测程序,如果检测到sdk程序退出就自动重启,就这样先糊弄着,直到有一天服务器告警,那个程序CPU居然飙到100%,服务器可是16核128G的哦。。。

二:分析问题

1. 抓dump文件

情况比较紧急,马上给程序发送Ctrl+C命令让程序退出,结果又退出不了,奇葩。。。为了分析问题抓了一个dump下来,然后强制kill掉程序。

2. 查看线程池以及各个线程正在做什么?


0:000> !tp
CPU utilization: 100%
Worker Thread: Total: 0 Running: 0 Idle: 0 MaxLimit: 32767 MinLimit: 16
Work Request in Queue: 0
--------------------------------------
Number of Timers: 1
--------------------------------------
Completion Port Thread:Total: 1 Free: 1 MaxFree: 32 CurrentLimit: 1 MaxLimit: 1000 MinLimit: 16

CPU utilization: 100% 上看,果然cpu100%了,发现 Worker Thread 没有Running 线程,可能是因为执行了Ctrl+C都销毁了,接下来用 ~*e !clrstack 把所有的托管线程栈打出来。


0:000> ~*e !clrstack
OS Thread Id: 0x1818 (0)
Unable to walk the managed stack. The current thread is likely not a 
managed thread. You can run !threads to get a list of managed threads in
the process
Failed to start stack walk: 80070057

从输出结果看,没有任何托管线程,唯一的那个线程0还不是还托管线程,然后改成 ~*e !dumpstack把非托管线程栈找出来。


0:000> ~*e !dumpstack
OS Thread Id: 0x1818 (0)
Current frame: ntdll!ZwRemoveIoCompletion+0x14
Child-SP         RetAddr          Caller, Callee
000000637323ef40 00007ff8327bac2f KERNELBASE!GetQueuedCompletionStatus+0x3f, calling ntdll!ZwRemoveIoCompletion
000000637323efa0 00007ff81b9c8a00 ONSClient4CPP!metaq_juce::URL::launchInDefaultBrowser+0x273d0, calling kernel32!GetQueuedCompletionStatus
000000637323f090 00007ff81ba3eb0a ONSClient4CPP!ons::Message::getMsgBody+0x5a8a, calling ONSClient4CPP!metaq_juce::URL::launchInDefaultBrowser+0x1f100
000000637323f140 00007ff81ba3f084 ONSClient4CPP!ons::Message::getMsgBody+0x6004, calling ONSClient4CPP!ons::Message::getMsgBody+0x5800
000000637323f280 00007ff81ba233b4 ONSClient4CPP!ons::ONSFactoryProperty::setSendMsgTimeout+0xa6b4, calling ONSClient4CPP!ons::ONSFactoryProperty::setSendMsgTimeout+0xa5d0
000000637323f2b0 00007ff81ba11b43 ONSClient4CPP!ons::ONSFactoryAPI::~ONSFactoryAPI+0x153
000000637323f310 00007ff81ba12d64 ONSClient4CPP!ons::SendResultONS::operator=+0xc44, calling ONSClient4CPP!ons::ONSFactoryAPI::~ONSFactoryAPI+0x10
000000637323f460 00007ff81ba83eb4 ONSClient4CPP!ons::Message::getStoreTimestamp+0xf484, calling ONSClient4CPP!ons::Message::getStoreTimestamp+0xf1c4
000000637323f630 00007ff8356f7d94 ntdll!RtlExitUserProcess+0xb4, calling ntdll!LdrShutdownProcess
000000637323f690 00007ff832777c23 KERNELBASE!CtrlRoutine+0xa3
000000637323f780 00007ff834df8364 kernel32!BaseThreadInitThunk+0x14, calling kernel32!WriteConsoleOutputW+0x530

从非托管调用栈来看,其中KERNELBASE!CtrlRoutine 表明主线程接受到了Ctrl+C命令, 从栈顶发现貌似不能退出的原因是主线程被 ONSClient4CPP 接管,而且这个C++正在做远程连接再等待网络IO返回,但这种会把16核cpu打满应该不太可能,这个问题貌似到这里就卡住了。

三: 重启程序发现问题依旧

1. 抓dump文件

很开心的是程序重新启动后,过了两分钟CPU又在飙升,这次学乖了,等CPU到了60,70%的时候抓dump文件。

2. 继续排查


0:000> .time
Debug session time: Fri Apr 17 17:36:50.000 2020 (UTC + 8:00)
System Uptime: 355 days 5:33:48.092
Process Uptime: 0 days 0:02:11.000
  Kernel time: 0 days 0:03:31.000
  User time: 0 days 0:13:22.000


0:000> !tp
CPU utilization: 59%
Worker Thread: Total: 3 Running: 0 Idle: 3 MaxLimit: 32767 MinLimit: 16
Work Request in Queue: 0
--------------------------------------
Number of Timers: 1
--------------------------------------
Completion Port Thread:Total: 2 Free: 2 MaxFree: 32 CurrentLimit: 2 MaxLimit: 1000 MinLimit: 16

从上面代码可以看到,进程启动了2分11秒,这次cpu利用率是59%,抓的有点早,不过没关系,先看一下Threads情况。


0:000> !threads
ThreadCount:      25
UnstartedThread:  0
BackgroundThread: 8
PendingThread:    0
DeadThread:       16
Hosted Runtime:   no
                                                                                                        Lock  
       ID OSID ThreadOBJ           State GC Mode     GC Alloc Context                  Domain           Count Apt Exception
   0    1  cdc 0000022bb9f53220    2a020 Preemptive  0000022BBBFACCE8:0000022BBBFADFD0 0000022bb9f27dc0 1     MTA 
   2    2  3dc 0000022bb9f7f9f0    2b220 Preemptive  0000000000000000:0000000000000000 0000022bb9f27dc0 0     MTA (Finalizer) 
   3    4 296c 0000022bb9fe97b0  102a220 Preemptive  0000000000000000:0000000000000000 0000022bb9f27dc0 0     MTA (Threadpool Worker) 
XXXX    5    0 0000022bb9ffc5a0  1039820 Preemptive  0000000000000000:0000000000000000 0000022bb9f27dc0 0     Ukn (Threadpool Worker) 
XXXX    6    0 0000022bd43938c0  1039820 Preemptive  0000000000000000:0000000000000000 0000022bb9f27dc0 0     Ukn (Threadpool Worker) 
.............................................................................
 163   24 29e8 0000022bd4898650  1029220 Preemptive  0000022BBC102108:0000022BBC103FD0 0000022bb9f27dc0 0     MTA (Threadpool Worker) 
 164   25 2984 0000022bd489d470  1029220 Preemptive  0000022BBC0EA2D0:0000022BBC0EBFD0 0000022bb9f27dc0 0     MTA (Threadpool Worker) 

好家伙,才2分11秒,托管线程ThreadCount: 25就死了DeadThread: 16个,而且从threads列表中看,windbg给的最大编号是164,说明当前有 (164+1) - 25 =142 个非托管线程,应该就是阿里的ONSClient4CPP开启的,为什么开启这么多线程,这就是一个很值得关注的问题了,接下来还是用 ~*e !dumpstack 把所有线程的托管和非托管线程栈打出来,由于信息太多,我就截几张图。

个人猜测,纯技术讨论:

图1:

从堆栈上看,有105个线程卡在 ntdll!ZwRemoveIoCompletion+0x14 这里,而且从 ONSClient4CPP!metaq_juce::URL::launchInDefaultBrowser+0x23072 中看,貌似阿里开了一个浏览器内核,用内核来发送数据,估计这里并发阈值开的还挺大的,咨询了下同事是前面有一家大客户发了很多的短信,估计是大量的回持积压,这个C# sdk进行了疯狂读取,这个跟CPU暴涨应该有脱不了的关系。

图2:

从检索上看有28个线程貌似正在临界区等待锁,CPU高的一个经典案例就是当很多线程在临界区等待的时候,当某一个正在临界区中的线程离开后,这28个线程的调度竞抢也是CPU高的一个原因。

个人水平有限,进一步挖非托管堆目前还没这个技术(┬_┬) 。。。

四: 解决方案

这种SDK的问题还能有什么解决方案,能想到的就是去官网找下可有最新版:

可以看到最新版的 ons-.net v1.1.4 中提到的优化点:优化消息拉取流程,避免特殊情况下拉取异常造成的消息堆积

果然用了最新版的sdk就可以了,🐮👃。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 盛派.NET SDK是一个用于开发基于.NET框架的软件开发工具包。它供了一套丰富的函数和类库,帮助开发人员更高效地使用.NET技术进行软件开发。 盛派.NET SDK具有以下特点和功能。首先,它支持多种编程语言,包括C#、VB.NET等,使开发人员可以根据自己的喜好和背景选择合适的语言进行开发。其次,它供了一些常用的功能模块,如数据访问、用户界面设计、身份验证和授权等,可以大大简化开发过程,高开发效率。 盛派.NET SDK供了一些高级功能,如与数据库的交互、多线程编程、网络通信等。这些功能能够满足一些特定需求,使开发人员能够更加灵活地开发出符合自己需求的软件。 另外,盛派.NET SDK供了丰富的文档和示例代码,帮助开发人员快速上手和使用SDK。开发人员可以通过查阅文档和参考示例代码,了解和学习SDK的各种功能和用法。 总的来说,盛派.NET SDK是一个功能强大、易用且灵活的开发工具包,可以帮助开发人员更高效地使用.NET技术进行软件开发。无论是初学者还是有经验的开发人员,都可以从盛派.NET SDK中获得很多帮助和支持。 ### 回答2: 盛派.NET SDK是一个用于开发基于.NET技术的应用程序的软件开发工具包。它供了许多方便的功能和组件,使开发者可以更轻松地构建应用程序,并且能够与不同的互联网服务进行交互。 首先,盛派.NET SDK包含了许多常用的类和方法,使得开发者可以轻松地访问和操作数据库、文件系统、网络等资源。这些功能大大简化了开发过程,高了开发效率。 其次,盛派.NET SDK支持与各种互联网服务进行集成和交互。例如,开发者可以使用该SDK与各大社交媒体平台进行连接,实现用户登录、分享内容等功能。同时,它还支持与第三方支付平台对接,实现在线支付的功能。 此外,盛派.NET SDK供了一套可视化的开发工具,使开发者可以更直观地设计和调试应用程序的界面。这些工具供了丰富的控件和布局选项,让开发者能够快速创建用户友好的界面。 最后,盛派.NET SDK还包含了一系列的文档和示例代码,帮助开发者了解和使用SDK的各种功能。这些文档详细介绍了各个类和方法的用法,示例代码则展示了如何使用SDK实现各种功能。开发者可以通过参考这些资料,快速上手并解决遇到的问题。 总而言之,盛派.NET SDK是一个功能强大、易用性高的软件开发工具包,可以帮助开发者快速构建.NET应用程序,并与各种互联网服务进行交互。无论是初学者还是有经验的开发者,都能够从中获得便利和效率的升。 ### 回答3: 盛派 .NET SDK 是一个为开发者供的软件开发工具包,用于帮助开发者在 .NET 平台上快速、高效地开发应用程序。通过使用盛派 .NET SDK,开发者可以轻松地在自己的应用程序中集成盛派的功能和服务。这个 SDK 供了一系列的 API 接口,开发者可以使用这些接口来调用盛派的各种功能,如用户身份验证、数据上传、推送通知等。 盛派 .NET SDK 的特点之一是其易用性和灵活性。开发者只需简单地引用 SDK 的库文件,并在他们的代码中使用相应的 API 接口,就可以快速集成盛派的功能。开发者可以根据自己的需求选择合适的功能和服务,以及相应的 API 接口。盛派 .NET SDK供了丰富的文档和示例代码,来帮助开发者更好地理解和使用 SDK。 此外,盛派 .NET SDK 还具有高性能和稳定性。盛派团队经过不断的优化和测试,确保 SDK 在不同的环境和场景下都能供稳定可靠的性能。开发者可以放心地将盛派的功能集成到自己的应用程序中,确保用户能够得到良好的体验。同时,盛派 .NET SDK 也支持跨平台开发,开发者可以轻松地在不同的 Windows 系统上使用相同的 SDK 进行开发。 总之,盛派 .NET SDK 是一个功能丰富、易用、高性能和稳定的软件开发工具包。它可以帮助开发者在 .NET 平台上快速开发应用程序,集成盛派的各种功能和服务,为用户供更好的应用体验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值