机器学习研究时常用到统计分析工具,一般是python语言写的,介绍下通俗易懂的工具的基本要求。
1.整体结构
- 头部:编码和运行环境;
- 注释:分析脚本的功能及开发者;
- import:分析工具用到的外部模块,要求按首字母音序排列,系统模块与第三方模块分开;
- 入口:main函数
- 参数解析:argparse模块,参数提醒&帮助
- 时间统计:统计分析工具执行时间,便于后续优化;
2.具体内容
- 内容结构:数据预处理,分析计算,打印输出结果;
- 异常处理:尽量抛出具体异常,如编码异常UnicodeDecodeError,UnicodeEncodeError等;
- 日志输出:loging模块,日志分级,日志必须输出时间,行号,内容;
- 具体实现:自身的函数写到当前脚本,通用的东西独立到公共模块;
- 代码规范:统一用下划线式,命令与读说顺序一致,如输出字典output_dict;每行不超过100字符,每个函数不超过100行;统一英文注释;
3.测试
- 单测:unittest模块