GNN和LLM的关系——瞎想

最新推荐文章于 2024-11-22 11:53:55 发布

蒸土豆的技术细节

最新推荐文章于 2024-11-22 11:53:55 发布

阅读量576

点赞数 3

文章标签：人工智能

本文链接：https://blog.csdn.net/qq_39006282/article/details/139409989

版权

如果把所有token连起来变成一个全连接图，那么attention机制能给每条有向边加上一个权重，self-attention就是在这个有向带权全连接图上做GNN的消息聚合。
套用这个想法，casual attention的任务等于图分类任务，给定一个序列token，在每一层decoder拓扑中的边权重都不同的情况下，在某个固定的master node(默认为最后一个token)上汇聚全图表示，然后预测图类别，类别就是token。
这样解释有些不好，因为如果将token看作某个图的label，那么给定的序列token岂不是许多个图label的拓扑了，感觉有点套娃。
我改个解释，把它改成：casual attention的任务等于节点分类任务。更不对了，节点分类总得知道这个节点的特征吧，如果说节点特征就是待遇测token前面的那些序列token，那GNN聚合后，怎么节点特征跑到了其他节点身上？
我注意到，如果每一层的拓扑边权重都不一样，我可以解释成：除了第一层的输入，其他token节点都应该看作一个master node，这就和GNN图分类合上了，将全图特征聚于一个master node，就能用它预测图类别，图类别等于token。

如果这么想，那么序列生成任务就是一个基于全连接图学习最佳图拓扑以预测图类别的过程。那么对于图来说，每个节点地位相同，只有拓扑，没有相对位置，这从attention本身的定义也看得出，attention本身不依靠位置，哪里的token都能聚合，等于是个bag-of-words。显然，如果不加位置信息，对于"小明是老明的（儿子）"和"老明是小明的（爹）"这俩任务的前缀词袋相同的情况，是预测儿子还是爹，LLM就搞不清了。所以一定要加position embedding，用加强相近token的相似度的手段侧面增强局部性，以摆脱词袋危机。
但同时，根据LLM是根据最后一个token预测下一个token的规定，位置编码极大限制了最后一个token看到前面信息的能力，除非加深网络，才能费劲地把前面的信息搬到最后一个token上。这也是LLM输出太长就容易崩的原因，当你后面的所有输出都依赖前面的query时，你最好保证你的LLM搬运能力够强，至少长阅读理解、长文章摘要这块应该拿下。
可以把所有阅读理解类的文章全部反序，答案不变，反序对文章信息抽取无害，因为位置编码是对称的，attention是位置无关的，只是答案不在最后一个token上了。如果LLM够nb，它会强迫自己在浅层把答案总结好，然后深层搬运答案。比起原本有序的时候全部层都在总结答案，这个任务难度更高，首先要求浅层得到答案，但是位置可以任意，然后靠深层网络搬运。

说实话，我不觉得LLM预测下一个token很nb，这只是喂够了数据+参数够多必然的结果，只是个概率游戏。我认为nb的是它在已经这样了的情况下还能准确地把query中原样的数据copy过来输出，我暂时想不到如何腾出参数来做这个功能，靠压缩再搬运？仅靠query就决定压缩哪一部分吗？