想象一下,你走进一家热闹的咖啡馆,向五位朋友抛出一个问题:“推荐一部值得一看的电影吧。”不出意外,你会收获五份截然不同的答案——有人爱悬疑,有人迷浪漫,还有人钟情科幻。现在,把这个问题丢给一个语言模型,比如GPT-4o,结果却可能是五次重复:“《盗梦空间》不错。”这不是朋友间的热烈讨论,而更像一台复读机在单曲循环。语言模型的能力令人叹为观止,它们能写诗、解题、聊天,可一旦涉及创意和多样性,它们却常常卡壳。这种“模式崩塌”(mode collapse)的现象让研究者们皱起了眉头,也催生了一项新探索:如何让AI学会像人类一样,迸发出五颜六色的灵感火花?《NoveltyBench: Evaluating Creativity and Diversity in Language Models》这篇论文正是这场探索的先锋,它用一个全新的标杆——NoveltyBench——丈量了AI的创意边界,也为我们揭开了语言模型的“多样性危机”。
🌈 多样性的失落:AI为何成了单调的复读机
人类的语言世界就像一片五彩斑斓的森林,每个人都能贡献独一无二的树种。可语言模型呢?它们更像一座精心修剪的花园,虽然花朵精致,却总逃不出那几株常见的玫瑰和郁金香。论文的作者们指出,这种单