模型卡可以与模型和分词器文件相提并论,对于模型仓库来说同样重要。它是模型的核心定义,确保社区成员的可重用性和结果的可重现性,同时为其他成员提供构建他们作品的平台。
记录训练和评估过程有助于他人理解模型的预期表现,提供关于使用的数据、预处理和后处理的详细信息,有助于识别和理解模型的局限性、偏见和适用场景。
因此,创建一个清晰定义你的模型的模型卡是至关重要的步骤。这里,我们提供一些指导,帮助你完成这个任务。创建模型卡是通过你之前看到的README.md
文件,它是一个Markdown文件。
“模型卡”概念起源于Google的研究方向,首次在Margaret Mitchell等人在论文《“模型卡:模型报告的工具”》(arXiv:1810.03993)中分享。这里提供的许多信息都基于该论文,我们建议你阅读它,以理解在重视可重现性、可重用性和公平性的世界中,模型卡为何如此重要。
模型卡通常以模型的简要概述开始,然后在后续部分提供更详细的信息:
- 模型描述
- 设计用途与限制
- 如何使用
- 限制与偏见
- 训练数据
- 训练过程
- 评估结果
让我们来看看每个部分应包含的内容。
Model description
模型描述提供了关于模型的基本细节,包括架构、版本、是否在论文中介绍过、是否有原始实现、作者以及关于模型的一般信息。任何版权信息都应在此处注明。关于训练过程、参数和重要免责声明的通用信息也可以在此部分提及。