大模型研究方向0611

YingJingh

已于 2023-06-12 10:11:22 修改

阅读量702

点赞数

文章标签：深度学习人工智能

于 2023-06-11 19:28:14 首次发布

本文链接：https://blog.csdn.net/Hekena/article/details/131156622

版权

文章目录

1. 大模型自身角度认知角度
2.大模型的成本角度
3. 大模型的评测角度
4.大模型的安全角度
5. 大模型结构角度

附上刘知远老师的见解：https://hub.baai.ac.cn/view/27283

1. 大模型自身角度认知角度

即大模型的理解，现在，大众普遍认为LLM 是黑盒机理，对其运作规律等认知不清晰、不透彻。
因此，大模型的解释是一个一直在做的方向。
比如，大模型的参数的作用是什么？大模型的涌现能力？大模型的思维链推理能力等等。

2.大模型的成本角度

大模型是训练然后应用的，训练成本和应用成本也是一直在考虑的问题。
现在，有一个研究是基于如何降低训练成本展开的，比如GPT的一些变种，他们使用GPT produce的corpus继续完成进一步的train，或者是在已有的LLM的基础上完成进一步的train，以降低训练的开销。
另外，在应用上，大模型的部署和推理速度是需要考虑的问题，为了减少大模型的部署费用，模型蒸馏、压缩等等技术一直在迭代中。在推理速度上，大模型推理中仅调用任务相关的参数等方向也在不断推进。

3. 大模型的评测角度

现在，我们认为一个模型好不好，主要考虑的是模型和人类的交互如何，是否能够按照人类问题回答？
之前的评测数据集是structure KB 的角度构建的数据集，比如NER、RE、EE数据集等等，但这和人类期待的效果还是有些差别的。
已有的评测数据集已经不能满足新时代下的评测。

4.大模型的安全角度

训练安全和应用安全，在训练中，由于参数量比较大，可能会分布在多个GPU上集成完成学习（连邦学习），也可能单个GPU，但是adversary attack是均有可能发生的，如何应对这些攻击？
在应用上，可能会有一个用户引导LLM产生一些威胁、恐吓的答案，对社会安全造成影响。

5. 大模型结构角度

现在的大模型结构一般是transformer、attention、linear、softmax的组合搭配。
以生成模型为主线。
未来会不会有新的结构？还是以生成为主线吗？

不管如何，科研为应用，因此，好用是关键。现在也有很多的工具提出来辅助（auxiliary），比如LLM组合搭配的工具、LLM prompt learning的工具、LLM 微调的工具等等。
也有很多GPT变种，主要是以降成本为主线。

附 Yaun LeeCun 人工智能发展路线图：表征、推理、规划
链接：https://mp.weixin.qq.com/s/Wu603Sk0QjwCKXhq4_aFFQ
在这里插入图片描述

那么，我们要怎么做呢?
事实上，我认为，人工智能研究面临三大挑战：
（1）通过自监督学习习得表征并预测世界模型。当下的自监督和强化学习需要大量的样本和试验。我们要通过自监督学习，以一种任务无关的方式表征世界。学习用于规划和控制的预测模型。
（2）学会推理：犹如 Daniel Kahenman 提出的「系统 1 & 系统 2」的理论。系统 1 是一种与潜意识计算相对应的人类行为或行为，你不需要思考就能做的事情。系统 2 是有意识地用你的大脑的全部力量进行推理。当下的人工智能系统大多停留在系统 1 的阶段。
（3）学习规划复杂的动作序列。通过将复杂的任务分解成简单的任务来分层次地计划复杂的动作序列。
在论文「A Path Towards Autonomous Machine Intelligence」中，我提出了一些对未来 10 年人工智能研究方向的建议。

YingJingh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
大模型研究方向0611

现在，有一个研究是基于如何降低训练成本展开的，比如GPT的一些变种，他们使用GPT produce的corpus继续完成进一步的train，或者是在已有的LLM的基础上完成进一步的train，以降低训练的开销。另外，在应用上，大模型的部署和推理速度是需要考虑的问题，为了减少大模型的部署费用，模型蒸馏、压缩等等技术一直在迭代中。之前的评测数据集是structure KB 的角度构建的数据集，比如NER、RE、EE数据集等等，但这和人类期待的效果还是有些差别的。因此，大模型的解释是一个一直在做的方向。
复制链接

扫一扫