“做时间的朋友” – 浅谈linux kernel中形形色色的cputime

一、引言

作为一名基民(韭菜),对于“做时间的朋友”这一金句一定耳熟能详(深恶痛绝)。各大知名基金经理教育我们,想做好投资,需要跟时间“做朋友”,对于认准的基金要坚定的长期持有。先不论在投资方面这句话是否适用,但它在linux开发领域却有一定的道理。作为一名linux内核开发者,如果想要了解一段程序执行的是否高效,一个很关键的指标就是它占用了cpu多长时间。“做时间的朋友”,了解linux系统中形形色色的cpu时间,是linux系统工程师需要掌握的重要技能之一,接下来我们就来简单的聊一聊这些linux时间守护者们。

二、各司其职的时间守护者们

1. 总揽全局的老大哥cputime

通过读取/proc/stat,我们可以看到cpu使用时间的分类显示:

7f44d435dc7011093115f0af2a30edc2.png

内核对应的时间类型定义在头文件include/linux/kernel_stat.h,上图中cpu[0...7]后的数值跟这些类型依次对应:

6b4b2902f3e2daf22291c4e636a45a75.png

它们分别代表如下含义:

dcca11674a223c9f03d87315e0685ad6.png

在linux系统中,cputime模块具有重要的意义。它记录了设备中所有cpu在各个状态下经过的时间。我们所熟悉的top工具就是用cputime换算出的cpu利用率。

f6be124e84abfa75f318e09121dd4d5d.png

2. 功耗分析的好帮手cpufreq stats:

cpufreq_stats模块的开启需要使能CONFIG_CPU_FREQ_STAT宏。当系统使能该特性后,cpufreq driver sysfs下生成stats目录:

c419e6589bc1a4c1f2614d0c60c91aa8.png

其中time_in_state节点,表示的是该cpufreq policy内分别处于各个频点的时间,单位为jiffies。由于该系统内核HZ设置为100, 所以每个jiffies为10ms。如上图所示,policy0在691200这个频点上经过了101310ms。有了这个功能,我们就能获取每个cluster上cpu运行最多的频点是哪些,进而针对性的对系统功耗进行优化。

3. 人多势众的小兄弟cpufreq_times

2e112f8c8802f6cbbc6c9e453bd1a739.png

1b6220df4afe980bb7d5ae54ec02d346.png

cpufreq times由procfs下的proc/[pid] /time_in_state节点来呈现,该节点记录了该进程(线程)在各个cpufreq policy的各个频点下驻留的时间, 单位为clock_t。clock_t是由USER_HZ来决定,该系统中USER_HZ为100,则clock_t代表10ms。如上图所示,进程1(一般为init进程),在cpufreq policy0的691200频点下运行了40ms,其他的频点情况依次类推。由于每个进程的派生,都会生成一个新的/proc/[pid]目录,所以这个节点也是cpu时间家族中数量最多的成员,说一句”人多势众”再合适不过。

4. cpu睡眠质量记录者cpuidle time

f586e8336864e5cd1a48325fca1dd1e7.png

cpuidle time模块的工作就是记录每个cpu在各层”梦境”中睡了多久,即每次开机以来,每个核在每个c state(idle状态称之为c state)下的时长。通过cpuidle driver sysfs中的time节点展示,单位为us。如上图所示,显示了该设备的cpu0在cpuidle state0/state1分别驻留了1868513998 us / 8196819678 us。

三、各模块的工作原理

1. cputime:

1880a4a479e321530d32c430fcf4036c.png

图1 cputime更新流程图

cputime模块代码位于kernel/sched/cputime.c。

当每次timer中断来临时,kernel经过由中断处理函数调用到irqtime_account_process_tick()(需要使能特性宏CONFIG_IRQ_TIME_ACCOUNTING,将irq/softirq的统计囊括其中)。通过判断当前task是否为softirq/user tick/idle进程/guest系统进程/内核进程,将经历的cpu时间(通常为1个tick)添加到第一章所述对应的类型中去。

1)示例代码:

fe5e6aba315588fbb53629fae42d5fe1.png

1a848ab6a7ba512edc19c7981d6743d5.png

c2b744164ea064f8fa6406ff0661fbf2.png

2. cpufreq_times:

de7e1088d3c531a304c55f583aca5475.png

图2 cpufreq_times更新示意图

cpufreq_times模块代码位于drivers/cpufreq/cpufreq_times.c。它的更新涉及到其他两个模块:cpufreq driver与cputime。

当cpufreq policy频率改变时,cpufreq driver通过cpufreq_notify_transition(普通调频模式)或者cpufreq_driver_fast_switch(快速调频模式)调用cpufreq_times_record_transition函数,通知cpufreq_times模块当前该policy处于哪一个频点。

当cputime模块接收到timer中断后,会调用cpufreq_acct_update_power(),将该tick添加到cpufreq_times模块当前任务及当前频点的统计上。

3. cpufreq_stats

fc123d2f0dfa24def3d6bdcc15963f0a.png

图3 cpufreq_stats更新示意图

cpufreq_stats模块代码位于drivers/cpufreq/cpufreq_stats.c。它的更新有些类似于cpufreq_times, 但与其不同的是只涉及cpufreq driver一个外部模块。

当cpufreq policy频率改变时,cpufreq driver通过cpufreq_notify_transition(普通调频模式)或者cpufreq_driver_fast_switch(快速调频模式)调用cpufreq_times_record_transition函数调用cpufreq_stats_record_transition函数,通知cpufreq_stats模块此刻发生调频以及要切换到哪一个目标频点。

  1. 示例代码:

eef7e2b45d373becc59eb286e0219d10.png

cpufreq_state模块则调用cpufreq_stats_update获取当前jiffies,并与上一次更新时的jiffies相减,最后将差值添加到上个频点的时间统计中。

4. cpuidle time:

cpuidle time模块代码在drivers/cpuidle/cpuidle.c。

当某个cpu runqueue上没有runnable状态的任务时,该cpu调度到idle进程。idle的流程在这里不再赘述,经过层层调用,最后执行到cpuidle_enter_state()函数。

1)示例代码:

797c007023e7b51afb3a005f5900ed17.png

45a08e425f05022a9ef8f180ef64efb6.png

通过local_clock()记录下进入idle(调用target_state->enter()这个回调函数)前后时间点, 取其差值将其保存到cpuidle_state_usage结构体中的time成员变量中。

四、总结

linux系统中时间相关的模块数不胜数,上述的四个模块不过是冰山一角。深入了解这些时间统计的意义及实现原理对于系统性能功耗优化有着很重要的意义。

参考:

https://lwn.net/Kernel/

8fb8d303769f006a20d77f056412349e.gif

长按关注

内核工匠微信

Linux 内核黑科技 | 技术文章 | 精选教程

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

OPPO内核工匠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值