前几天我写了一个简单的词法分析器项目:https://github.com/MarchLiu/oliva/tree/main/lora-data-generator 。
通过词法分析快速生成 lora 训练集。在这个过程中,我需要通过命令行参数给这个 java 程序传递一些参数。
这个工作让我想起了一些不好的回忆。我这些年来做过太多类似的东西,随着程序开发的进展,命令行参数的规则越来越复杂,于是简单的几个赋值操作迅速变成了一大堆逻辑分支。
对于 Python 程序,至少内置的命令行解释工具 argparse 足够好用,对于通常
的开发工作已经足够。但是 Java 标准库中并没有这样的组件。
目前我所知道的,apache commons cli 或许是个好选择。但是我也有一些自己特定的期待:
- 我希望有一个能够很方便的和 jaskell try 机制良好配合的工具
- 希望它的构造足够方便
- 对我常用的命令行设计风格有足够的支持,具体的内容后面我会介绍
于是,我顺手在 jaskell-rocks 库中加入了一个 ArgParser 工具,用于处理以下的命令行设计:
- option: 可以指定 --xxx 类型的参数,这类参数需要带有参数值
- option 可以有默认值
- option 可以是 required 或者可选的
- option 可以设置为只能在某几个值中选择
- 允许多次传入同一个 option 名的参数,所有同名 option 的参数聚合为一个集合
- with option:with option 不需要带有值,
- 可以通过 --with-xxx 或 --without-xxx 表示某个 with option 是否设定
- with option 有默认值,但是没有 required 限制
- switch 开关
- 开关有默认值
- 可以通过 --enable-xxx 或 --disable-xxx 表示一个 switch 的状态
- switch 有默认值
- switch 有 required 或可选的状态
- args
- 前面介绍的三类都是有显式参数名的参数项,在其后可以有零到多个无名参数
- 这些参数可以隐含有 require 约束,例如复制操作必须要提供 source 和 target,args 的 size 就至少需要为 2
- args 参数也有可能有默认值,例如一个连接http服务的调试脚本可能默认连接
localhost:8080
,没必要显式给出。 - 显然,required args 应该在 所有 args 的最前面,而有默认值的应该在最后
- help 所有显式设定的参数都允许提供 help 文本,argParser 内置对
--help
,-h
的识别,输出参数的文档 - 允许为参数名设置缩写,例如
--source
可以设定为-s
。
目前的 ArgParser 已经完全满足我的需要,例如 oliva 的 lora 数据生成工具,就使用了这个命令行解释器:
var lexer = new LexerRouter();
var source = Option.create("source")
.help("source project directory")
.required(true);
var target = Option.create("target")
.help("where save lora train dataset")
.required(true);
var argParser = ArgParser.create()
.header("Oliva is a assistant program. It just cut source code to lora training data.")
.formatter("%1$-20s %2$-20s %3$-60s\n")
.option(source)
.option(target)
.footer("Power by Jaskell");
argParser.parse(args)
.onFailure(err -> {
System.err.println(err.getMessage());
}).onSuccess(result -> {
result.autoHelp();
//...
这里就是 lora-data-generator
项目的参数解析部分。如果传入了 help 参数,autoHelp 会向控制台打印帮助然后 System.exit(0)
退出。如果
需要深度的控制help行为,这个解释器还暴露了几个与帮助文档有关的中间方法,包括帮助格式的模板字符串。这个工具已经初步满足了我的需要,在未来,也
许我会加入一些便利的工具方法,类似 intValue
这种。但是总的来说,这个设计不需要再有大的改动,如果真的遇到在结构上不能满足我的需求,也许我会
考虑 apache commons cli。