原书很长,有19.3w字,本文尝试浓缩一下其中的精华。
知识点
GPT相关
谷歌发布LaMDA、BERT和PaLM-E,PaLM 2
Facebook的母公司Meta推出LLaMA,并在博客上免费公开LLM:OPT-175B。
在GPT中,P代表经过预训练(pre-trained),T代表Transformer,G代表生成性的(generative)。
基于大模型提供法律咨询服务的Casetext,利用私域文本嵌入和摘要技术来应对GPT的错误信息风险。
ChatPDF:基于大模型的文档工具,解析PDF,识别内容,理解用户意图和需求,提供文本对话、知识问答等服务。
ShareGPT:浏览器插件产品,用户可以通过ShareGPT保存并分享自己跟ChatGPT的对话记录。
Character.ai:神经语言模型聊天机器人网络应用程序。
ELIZA:1960s年代在麻省理工学院开发的聊天机器人,支持好几种对话脚本,可以模拟人本主义的心理治疗师,跟用户文本交流。
GPT系列模型用过的数据集:
- 维基百科
- 古登堡计划(Project Gutenberg),致力于将文化作品数字化和归档,数字图书馆
- ThePile数据集中的Books3数据
- 自助出版平台Smashwords,维护着Toronto BookCorpus与BookCorpus数据集
- ArXiv论文库
- 美国国家卫生研究院(The National Institutes of Health)数据集
- GitHub
- Reddit:社交媒体平台
- Common Crawl:互联网爬虫
- C4,公共网页数据集,包括各种文章、博客、新闻、论坛等
- Stack Exchange,高质量的问答网站,涵盖从计算机到化学等各种领域的问题和答案
- 斯坦福问答数据集,The Stanford Question Answering Dataset,简称SQuAD。
- 谷歌的自然问答数据集
- TruthfulQA:一个非常容易产生幻觉的数据集,专门用来对幻觉进行测试
临界点:《大语言模型的涌现能力》(Emergent Abilities of Large Language Models)论文说,许多新的能力在中小模型上线性放大规模都得不到线性的增长,模型规模必须要指数级增长超过某个临界点,新技能才会突飞猛进。量变引发质变。
大模型强调规模定律(Scaling Law),要指数级地加大模型来获得性能突增和能力涌现
Hallucination:幻觉,指的是生成式AI的胡诌,杜撰,Confabulation。封闭域幻觉是指人类用户要求大模型仅使用给定背景中提供的信息,但大模型却创造背景中没有的额外信息。开放域幻觉是指大模型在没有参考任何特定输入背景的情况下,提供关于世界的错误信息。
未来人类学习的知识,会有很大一部分源于生成式大模型;大模型生成的内容,存在胡诌和虚假,会对传统人类知识造成污染。OpenAI曾考虑对人工智能生成内容进行水印标记,但并未找到可行的实施方法。因此,这个关于信任的挑战必须由人类自己来面对。
英伟达公司推出针对大模型推理的H100 NVL GPU和DGX CLOUD计算集群。
Anyscale:开发Ray并为OpenAI公司提供框架支持的创业公司,提供SkyPilot,基于多个云服务商的模型训练推理计算资源的代理。给定一项计算任务及资源需求(CPU、GPU或TPU),SkyPilot会自动找出哪些位置(区域和云服务商)具有合适的计算能力,然后将其发送到成本最低的位置执行。
TPU,Tensor Processing Unit,张量处理单元,张量处理器,Google开发的专用集成电路,专门用于加速机器学习。
NPU:神经网络处理器,Neural Network Processing Unit,用电路模拟人类的神经元和突触结构。典型代表有国内的寒武纪芯片和IBM的TrueNorth。
PUGC:Professional User Generated Content
PUGM:Professional User Generated Model
其他
BIG-bench,谷歌的一个研究项目,包括有207个测试任务,涵盖语言学、数学、常识推理、生物学、物理学、软件开发等领域。
卢德运动:英格兰中部莱斯特市,织布学徒工内德·卢德(Ned Ludham)在被雇主责骂后失控&