【Issue description】之前在测试Windows wireless NIC(无线网卡)驱动时,大概率发生系统挂掉的问题,即操作上层UI(配置和管理wifi功能)时,发生系统死机(非蓝屏)。
【Issue analyze】通过使用Windbg进行双击联调,分析系统dump文件的函数调用栈(function call stack),定位出错的函数为驱动内部函数,此时调用了NdisCancelTimer。
可以确定必定是驱动在调用NdisCancelTimer时发生错误所致。由于刚接触Windows驱动开发,对Ndis的API并不熟悉。
于是到WDk Document 查看NdisCancelTimer的用法和注意事项,发现有这样的表述(大意):
当Cancel一个one shot Timer时,caller运行在IRQL<=DISPATCH_LEVEL;
当Cancel一个periodic Timer时,caller 只能运行在IRQL=PASSIVE_LEVEL;
再通过抓取log发现,系统崩溃时,调用NdisCancelTimer的线程的确运行在DISPATCH_LEVEL,而Timer是周期性的,root cause找到!
【Solution】在Call NdisCancelTimer时,先判断此时的IRQL(KeGetCurrentIRQL),若为PASSIVE_LEVEL,则调用NdisCancelTimer;否则利用WorkItem机制,待IRQL降低为PASSIVE_LEVEL时在WorkItem 的回调函数中再调用NdisCancelTimer。