我在翻译一篇nature上关于“使用递归生成的数据训练,AI模型会崩溃”的过程中发现一个很有趣的问题:
就是关于“LLM”有两种理解,计算机往往倾向于翻译成“法学硕士”,而本文中应该理解为“大语言模型”
LL.M.(Master of Laws)
, 法学硕士, 是一个一年制(部分地区为两年制)的法学进阶课程,类似于中国的法学硕士学位但又有所区别,全称是 ,主要在英、美等普通法系国家和地区开设,属于普通法系法学教育体系中的硕士阶段。
LLM(Large Language Model)
,通常指大型语言模型,是一种基于深度学习的自然语言处理模型,它们通过训练大量文本数据,获得了强大的语言理解和生成能力。这些模型可以用于多种任务,如文本生成、问答系统、翻译等。它们的关键优势在于能够理解和生成连贯、多样化的文本。
在Python中,可以通过相关的库接口,比如Hugging Face的Transformers库,使用像GPT这样的LLM。
from transformers import pipeline
# 初始化一个基于GPT2的生成器
text_generator = pipeline("text-generation", model="gpt")
# 输入一些提示并获取生成的文本
prompt = "请输入你的问题或陈述,我会尽力回答:"
response = text_generator(prompt, max_length=50)
print(f"模型生成的回答: {response['generated_text']}")
————————————————————————————————————————
下面走进这篇文章:
LLM迭代至第9代,完全胡言乱语
简单讲,LLM生成的数据最终污染了下一代模型的训练集,就会出现「模型崩溃」(model collapse)的现象。
由于在被污染的数据上进行训练,LLM随后会错误地感知现实。这样一来,会导致多代AI生成模型的退化。
也就是那句经典名言:
Garbage in: Garbage out —Jeffrey Winters
输入是:
据Poyntz Wright所说,一些教堂塔楼在1360年之前就开始建造了,通常是由一位大师石匠和一小队流动石匠完成,辅以当地教区的工人。但其他作者不同意这种观点,他们认为主要是由著名建筑师根据早期的垂直风格设计了这些教区教堂的塔楼。
到了第五代:满屏短语,开中药铺
ism,已被翻译成100多种语言,包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、荷兰语、瑞典语、挪威语、波兰语、匈牙利语、斯洛伐克语、立陶宛语、爱沙尼亚语、芬兰语、罗马尼亚语、保加利亚语、土耳其语、克罗地亚语、塞尔维亚语、乌克兰语、俄语、哈萨克语、吉尔吉斯语。
到了第九代:已经不会说人话了
架构。除了是世界上最大的一些种群的家园黑色@ @ @长尾长耳兔,白色@ @ @长尾长耳兔,蓝色@ @ @长尾长耳兔,红色@ @ @长尾长耳兔,黄色@-。
研究团队认为,AI生成数据要进行严格过滤。
比如,在每一代模型的训练数据中,保持10%或20%的原始数据;使用多样化数据,如人类产生的数据;或者研究更有效的训练算法。没想到人类创造的数据,居然有一天会价值连城。
对原文感兴趣的可以看一下:
https://www.nature.com/articles/s41586-024-07566-y