往期回顾
警惕!对AI大模型的错误认知正在误导你⓵全军覆没——大模型征战高考数学卷
⓶三大因素——保障模型推理质量的关键
弘老师:在解答之前,得澄清一个概念,AI大模型分为训练和推理两个阶段。训练是学会知识的过程,推理是思考如何回答的过程,两者都需要GPU算力支持,大家能听明白吗?
老胡:明白。
弘老师:如果GPU算力充足,模型能深入思考,回答质量更高;算力不足时,则质量下降,甚至可能出错。所以,第一个影响AI推理的关键因素是——GPU算力。
小涂:弘老师,我平时用APP或网页版提问,也会遇到算力问题吗?
弘老师:会。比如凌晨5点访问平台时,用户少,系统资源充足,模型有足够算力进行复杂推理,答案可能更准确;而在白天高峰期,用户多,算力紧张,准确性可能下降。在企业本地部署中,这种现象更明显,当算力不足时,模型可能会跳过关键步骤、降低计算精度,甚至直接罢工。解决办法只能是增加显卡,提升GPU算力。
小涂:原来如此,那第二个因素呢?
弘老师:大模型通过学习海量数据让自己变“聪明”,但它并不是死记硬背去存储这些“原始数据”,而是将学习到的知识以参数的形式保存下来,这些参数往往高达数千亿,在训练期间被不停的更新。
老胡:弘老师,参数是什么意思?我有点听不懂。
弘老师:这个话题比较复杂,简单说,语言是由有限的单词组合而成,以“苹果”为例,一方面,大模型会不断完善“苹果”的维度,比如读了《苹果树的故事》一书,就知道苹果能吃;读了《乔布斯传》后,就知道“苹果”还是个品牌…这样的维度有成千上万个。另一方面,会完善“苹果”的空间位置,比如发现苹果和梨子常一起出现、一起被吃,于就会让它们的空间位置上更接近。无论是维度还是空间位置,都是大模型的参数,这些参数就是大模型学到的知识。
但训练结束后,这些参数就固定了。比如某个大模型是2024年10月训练完成的,它就不知道11月的事。
小涂:不能实时学习吗?
弘老师:可以,但需要访问外部的数据(详见链接:《AI海马体》 )。比如企业数据或互联网数据。所以,第二个影响AI推理质量的因素是——外部访问。如果允许模型上网搜索,它可能从做错变成做对。
小涂:哈,就是抄答案嘛。
弘老师:可以这么理解,不过搜索不会让它记住,断开外部访问后,它还是不会!
小涂:为啥,哦…我明白了! 因为记住等同于对其内部参数进行更新,这个过程代价很大,所以不会实时进行,对吗?
弘老师:小涂很聪明!更新参数的过程就叫微调,属于模型训练阶段,而非推理。
小涂:那第三个因素是啥?
彬老师:我来说,第三个因素是——专家交互。弘老师是清华大学高材生,对数学研究很深,他能给出专业提示词,引导模型找到正确答案。比如今年高考最后一题,在弘老师引导下,部分大模型就能解出正确答案。但是我怎么试都不成功。也就是说,同样的模型和题目,弘老师能让AI表现更好。
小涂:我明白了。这就像彬老师您之前说的,不同人让 AI 大模型写 SQL,效率差别很大。您是 SQL 专家,能合理引导、纠正不完善的地方,最后得到效率更高的 SQL,这和大模型做高考题的引导是一个道理。(详情点链接:《SQL人生》 )
彬老师:对,总结得很好!
未完待续…
警惕!对AI大模型的错误认知正在误导你⓷云泥之别——当下垂直领域专用AI碾压大模型
公众号:收获不止数据库
系列回顾