论文: https://arxiv.org/pdf/2406.12754
开源地址:GitHub - dnaihao/Chumor-dataset
作者与机构: 来自密歇根大学、卡内基梅隆大学和上海交通大学的研究人员。
摘要: 论文指出,目前幽默数据集和评估主要集中在英语上,缺乏对非英语语言(如中文)文化细微差别的幽默理解资源。为了填补这一空白,作者构建了Chumor数据集,该数据集来源于中国的“弱智吧”(RZB)。
数据集构建:
- 数据收集: 包括2018至2021年的“年度最佳帖子”和“版主推荐”部分的笑话。
- 数据清洗: 自动识别并移除无意义的占位文本,保留笑话本身。
- 数据注释: 作者手动为每个笑话注释解释,确保质量和一致性。
实验:
- 实验设置: 使用两个最先进的大型语言模型(LLMs),GPT-4o和ERNIE Bot,以零样本设置解释笑话的幽默之处。
- 评估设置: 通过A/B测试,让一组以中文为母语的人比较人类和LLMs的解释哪个更好。
结果: 人类解释显著优于LLMs生成的解释。
错误分析:
- 论文分析了LLMs在解释幽默时的错误类型,如文化无知、同音词幽默、基于汉字的幽默等。
结论: Chumor数据集为非英语幽默研究和提高LLMs对不同文化背景推理能力的研究提供了促进。
#大模型 #弱智吧
本文首发于公众号:AI智语狂想,欢迎关注。