ChatGPT最近火了。ChatGPT在发布5天内吸引了100w用户,用户获取速度超过了任何一家科技产品。人们一直梦想着计算机能更多地参与到生产活动中来,如翻译文字、识别语言、检索、生成文字图片等。2022年末,生成式对话型人工智能ChatGPT和AI生成图片应用Midjourney问世,1个月内获取过亿用户。尽管根据用户使用后的的反馈,它们的表现还不能堪称完美,但已经是令大众惊喜的程度了。ChatGPT和Midjourney背后的公司是OpenAI,成立于2015年,由Elon Musk和Sam Altman等个人和组织创建,旨在推进和促进人工智能领域的研究。
ChatGPT的背后是AI的蓬勃发展。AI领域的大部分问题都是如何提高机器学习效率的问题,即如何能让机器更高效地学习客观物理世界并代替人类执行工作任务。让机器学习客观物理世界,听懂人类指令执行任务,这个愿景实现的首要难点就是如何能让机器学习读懂人类语言。历史上,人们尝试过让机器模拟人类进行学习,如学习人类通过语法规则、词性、构词法、分析语句等学习语言。随着数据、算力、模型架构、范式等的升级,模型架构从机器学习到神经网络再到今天的Transformer-Based,对应的能力也在不断发展。
ChatGPT基于的算法,也就是AI模型是什么样的呢?基于大语言模型,NLP领域延伸出了两个学界最主流的方向-Bert模型和GPT模型。Bert模型和GPT模型都是预训练模型。预训练模型会预先接受海量的文本语料进行学习。学习的成果以模型参数的形式沉淀。模型参数的沉淀会对预训练模型关于词性、句法等方面的理解能力进行改进。区别在于,Bert模型是双向预训练语言模型+fine-tuning;GPT模型的特征则是自回归预训练语言模型+prompting(指示/提示)。这里最大的区别就是参数是否会进行变化升级。总结来说,ChatGPT背后的模型&#x