今天一个外企个小伙伴跑来跟我说,老板说他的程序里的英语写的太烂,让我教他怎么写日志。虽然我自己用英语写log,也还马马虎虎,但是让我系统的介绍,我也犯了难。
好在,我做过自然语言处理(NLP),也做过针对计算机系统的日志的挖掘,所以我知道有个东西叫做数据集(dataset),你可以找到各种NLP的dataset,包括日志。NLP专家用他们来训练NLP模型,判断系统是否正常,而我们可以找到他们,研究英语日志是怎么写的。
我在搜索引擎里换了好几次的关键字,最后用“log dataset”关键字,找到了一个叫loghub的项目。
其github地址如下:
https://github.com/logpai/loghub
这里一共收集了16种计算机系统的log。从windows,linux,mac到Hadoop,Zookeeper等,都是一些非常重要的系统的log,相信这样的log,也是质量非常高的。
为什么要参考已有的日志
有的人认为自己的英语很好,就能写好log了,我觉得未必。我可以问你一个问题,在美国怎么称呼法官?如果你不知道,你可能永远也不知道法官叫Your Honor。这就是特定场景有特定用语。
下面,我反复翻阅了loghub,总结出一些规律,希望对大家有用。
如何表示开始和结束
在写英语日志的时候,要记住英语是有时态的。所以,常用的表示开始和