大语言模型的最早应用是Chatbot,其实我最早接触语义理解在2014年,2014年做智能音箱的时候,那时也是国内第一批做智能音箱的,在现在看起来当时的智能音箱比较傻,很多问题无法回答,长下文效果也不好,多轮对话效果就更差了,那时对话使用的主要技术是基于规则+知识图谱,所以主要还是停留在命令词识别基础上的交互,比如放音乐类、操控智能家电以及问天气等有限的几个范畴,更多的扮演的事assistent角色,开放式聊天做的并不好。
当时是设计阶段就决定了对话的上限,虽然我们当时模仿的Amazon Alexa如今“进化”出了数以万计的技能,但是相对于LLM,这些技能显得有些过时,如何将LLM接入Alex也是亚马逊不得不面临的事。
时至今日大型预训练的语言模型(如GPT、BERT等)使得对话机器人取得了显著的进展。这些模型通过在大规模文本数据上进行预训练,可以生成具有语法正确性、语义连贯性、具有记忆能力多轮对话的文本回复,除了生成自由对话回复的模型,还有一些任务导向的对话系统,如客服机器人、智能助理等。这时在运行时才会决定对话的上限,聊天机器人再次被认为是客户服务、营销和内部运营的潜在游戏规则改变者。
在训练模型的时候,常常提到模型的泛化能力,泛化能力使得模型可以高质量回复训练集中并不存在的内容,即可以将模型的训练过程看成是记忆+学习的过程,记忆是可