计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-24
1. Enriching Datasets with Demographics through Large Language Models: What’s in a Name?
K AlNuaimi, G Marti, M Ravaut, A AlKetbi, A Henschel… - arXiv preprint arXiv …, 2024
通过大型语言模型丰富数据集的人口统计学信息:名字里有什么?
摘要
本文探讨了如何利用大型语言模型(LLMs)从名字中预测性别、种族、年龄等人口统计信息,这对于医疗保健、公共政策和社会科学等领域至关重要。尽管以往的研究采用了隐马尔可夫模型和循环神经网络来预测名字中的人口统计信息,但存在显著的局限性,包括缺乏大规模、良好策划、无偏见、公开可用的数据集,以及缺乏跨数据集稳健的方法。本文展示了大型语言模型的零样本能力,其表现与专门训练的模型一样好,甚至更好。作者将这些LLMs应用于多个数据集,包括香港金融专业人士的真实未标记数据集,并批判性地评估了这些模型中固有的人口统计偏见。
创新点
- 零样本学习能力: 展示了现代零样本LLMs在从名字生成人口统计数据方面,性能优于或至少与以前的监督学习方法相当。
- 人口统计偏见的揭示: 特别是它们倾向于低估个体年龄,通常超过十年,这对于年龄敏感的应用(如医疗保健和市场营销)具有重要意义。
- 新数据集的分析和丰富: 分析、丰富并发布了一个专注于香港金融专业人士姓名的新数据集,填补了非西方人口统计数据集的空白。
算法模型
- 大型语言模型(LLMs): 包括GPT-3、ChatGPT等,这些模型在零样本学习方面表现出色,无需监督调整即可生成类似人类的文本。
- 传统监督学习方法: 包括隐马尔可夫模型和循环神经网络。
实验效果
- 性别预测: 在佛罗里达选民注册数据集上,所有12个LLMs的准确率在0.96到0.99之间。
- 出生日期预测: LLMs表现不佳,无法一致地提高简单基线。
- 种族预测: 大多数LLMs的零样本准确率在0.75到0.85之间,与之前报道的随机森林或LSTM等机器学习模型相当。
- 国籍预测: 在维基百科数据集上,准确率低于种族预测,但封闭源LLMs(特别是Claude和GPT系列)表现更好。
结论
LLMs能够仅基于人名准确预测性别、种族甚至国籍。尽管预测年龄或出生日期更具挑战性,但LLMs在人口统计学注释生成方面开创了新纪元,这可能会显著简化医学等领域的许多人口层面的干预措施。
推荐阅读指数:
★★☆☆☆
推荐理由:
- 文章不仅展示了LLMs在人口统计学丰富化方面的潜力,还为未来研究提供了重要的资源,特别是在解决偏见和改进人口统计预测方面。
2. The Factuality of Large Language Models in the Legal Domain
RE Hamdani, T Bonald, F Malliaros, N Holzenberger…
来源: ht