LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large Language Models
自动并排评估已成为评估大型语言模型(LLM)响应质量的一种很有前途的方法。然而,分析这种评估方法的结果会带来可扩展性和可解释性方面的挑战。在本文中,我们介绍了LLM Comparator,这是一种新颖的视觉分析工具,用于交互式分析自动并排评估的结果。该工具支持交互式工作流,用户可以了解模型何时以及为什么比基线模型表现更好或更差,以及两个模型的响应在质量上有何不同。我们与一家大型科技公司的研究人员和工程师密切合作,反复设计和开发了该工具。
复制链接