《AI进化志》16 第五章 大模型时代:智能的泛化与共生(2017-2025)Transformer的“记忆纽带”——AI终于学会“抓重点”

2017:Transformer的“记忆纽带”——AI终于学会“抓重点”

要是把AI的“学习生涯”比作上学,那2017年之前的它,大概是个上课只会逐字记笔记、却抓不住老师讲课重点的学生。读“猫追老鼠”,它分不清“追”才是串起整个句子的关键;看一篇新闻,它把广告和正文当成同等重要的内容。直到2017年,Google团队甩出一篇名为《Attention Is All You Need》的论文,Transformer带着“自注意力机制”横空出世,才总算帮AI打通了“抓重点”的任督二脉。

在Transformer出现之前,自然语言处理(NLP)领域一直被“循环神经网络(RNN)”和“长短期记忆网络(LSTM)”霸榜。但这俩“老大哥”有个致命缺点:读句子只能像我们看书一样从左到右挨着来,前面的内容记久了还会“失忆”。就像你读一本长篇小说,看到结尾时早忘了开头配角的名字,AI处理长文本时也会这样——前面的单词记不清,后面的内容自然没法串联。当时有个挺尴尬的事儿:有研究者用LSTM处理一篇500字的文章,结果AI把开头提到的“小明”和结尾提到的“他”当成了两个人,闹了个大笑话。

而Transformer的出现,直接把这个“尴尬局”给破了。它的核心——自注意力机制,就像给AI装了一副“重点探测眼镜”。读“猫追老鼠”时,AI会通过注意力权重计算,自动给“追”这个动词更高的关注度,同时把“猫”和“老鼠”跟“追”紧紧绑在一起,一下子就明白“谁在做什么”;处理长文章时,它不用再逐字“啃”,而是能像我们扫读一样,一眼锁定关键句、关键词,甚至还能“联想”——看到“下雨”,就会自动把后面的“打伞”“堵车”联系起来。

说起来,Transformer的诞生还有段挺有意思的“幕后故事”。当时Google团队里有个叫Ashish Vaswani的研究员,他最早提出“用注意力机制替代循环结构”时,团队里不少人都觉得这想法太“冒险”。有次开会,有人质疑:“连LSTM都搞不定长文本,你这纯注意力模型能行吗?”Vaswani没急着反驳,而是当场用简单的数学公式算了算——自注意力机制计算两个单词关联性时,复杂度是“线性”的,比LSTM的“平方级”快多了。后来他们做实验时更搞笑:一开始用小数据集测试,AI居然把“苹果手机”和“苹果树”搞混了,团队成员笑称“这AI怕是没吃过苹果”。但等他们调整了注意力权重的计算方式,再用更大的数据集训练后,AI不仅能分清“吃的苹果”和“用的苹果”,还能准确理解“我买了个苹果,它能拍照”这种双关句。

更关键的是,自注意力机制还让AI有了“举一反三”的能力。以前AI学中文和学英文是两码事,学完中文的“你好”,再学英文的“Hello”,它完全想不到这俩是一个意思;但有了Transformer后,它能通过注意力机制找到不同语言间的“对应关系”——学过“猫追老鼠”,再看到“Cat chases mouse”,它会自动把“追”和“chases”、“猫”和“Cat”对应起来,这也为后来的多语言翻译模型打下了基础。当时有个测试特别有意思:研究者给AI输入“今天天气很好,适合去公园散步”,再让它翻译成法语,以前的模型可能会译成“今天天气很好,适合去公园跑步”(把“散步”和“跑步”搞混),而用Transformer搭建的模型,不仅翻译准确,还贴心地在句末加了个表示愉悦的感叹号,活像个懂点人情世故的小助手。

现在回头看,2017年的Transformer就像给AI递了一把“钥匙”——以前AI面对语言这座“迷宫”,只能在里面瞎转悠,而有了这把钥匙,它终于能找到迷宫里的“路标”(关键词),顺利走出迷宫。更重要的是,这个“抓重点”的能力,还为后来的GPT、BERT等大模型铺了路。就像我们上学时,先学会抓重点才能学好复杂知识,AI也是先掌握了“自注意力”,才一步步走进了能写文章、会聊天的大模型时代。

说起来也挺感慨,以前我们总觉得“理解语言、抓重点”是人类独有的能力,可Transformer告诉我们:那些我们以为的“本能”,其实背后也有规律可循。就像我们读句子时能自动关注动词,AI通过注意力权重也能做到;我们能联想上下文,AI通过计算单词间的关联性也能实现。这不是说AI变成了人,而是说我们终于找到一种方法,让机器学会了“像人一样思考重点”——而这,正是AI从“只会算”走向“会理解”的关键一步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黑客思维者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值