大模型LLM：探索其神奇的涌现能力

lazycatlove

于 2024-06-26 08:51:53 发布

阅读量257

点赞数 5

文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lazycatlove/article/details/139975760

版权

新浪张俊林–中国人工智能学会演讲

文章目录

什么是大模型的涌现能力

涌现：许多小实体相互作用产生了大实体，大实体展现了组成它的小实体所不具有的特性

大语言模型的规模效应：下游任务表现-伸缩法则&&涌现能力

左侧任务：随着参数规模增大，知识的增长，效果越来越好

例如：多数据清洗和转换、基于维基数据的知识问答、语言映射、日期理解、虚构语言翻译、单位转换任务

右侧任务：涌现能力的一种体现，在参数规模小的时候体现一种随机性，看不出来有没有效果。大部分是由多步构成的一个复杂任务

例如：词性消歧、国际音标转写、周期表元素识别、修改后的算术、重复复制逻辑、单词反混淆

随着模型推大，效果一开始下降，当规模再增大时会上升，原因未知，但是这类任务加入COT就会转化为伸缩法则，效果持续上升。

大模型的涌现，很多任务在小规模上不能实现，但是大规模上能做。因此在当前不能做的任务，为了验证，只需要推大模型。

LLM表现的涌现能力

1. In Context Learning – 情景学习

给LLM几个示例，不需要调整模型参数，LLM就可以解决某个领域的问题。

在不同任务上的应用。

2. CoT

3. 其他涌现能力

LLM模型规模和涌现能力的关系

模型规模和涌现能力的关系： In Context Learning

与具体任务/具体模型有关：某些任务13B规模即可，有些任务需要540B，大部分需要达到70B

模型规模和涌现能力的关系： CoT等其他涌现能力

尝试做小模型？

模型训练中的顿悟现象：Grokking

Grokking：训练数据较少的某些数学任务（取余问题），训练过程三阶段（记忆期、平台期、泛化期）

LLM涌现能力的可能原因

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
大模型LLM：探索其神奇的涌现能力

涌现：许多小实体相互作用产生了大实体，大实体展现了组成它的小实体所不具有的特性大语言模型的规模效应：下游任务表现-伸缩法则&&涌现能力左侧任务：随着参数规模增大，知识的增长，效果越来越好例如：多数据清洗和转换、基于维基数据的知识问答、语言映射、日期理解、虚构语言翻译、单位转换任务右侧任务：涌现能力的一种体现，在参数规模小的时候体现一种随机性，看不出来有没有效果。大部分是由多步构成的一个复杂任务例如：词性消歧、国际音标转写、周期表元素识别、修改后的算术、重复复制逻辑、单词反混淆。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。