![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
多模态大模型
文章平均质量分 87
介绍多模态大模型的技术发展,从面到点,逐步深化
BThoth必索思
清华剑桥Ai学术分享与指导
展开
-
第三篇:大模型技术进阶之stage三步走
因为每次推理 next token的时候,模型都会根据前文生成next token的概率分布,但是考虑到过拟合的问题,模型不会每次只输出概率最高的那个token。然后排序结果可以通过一些算法转换为得分,我们把得分作为一个新的token放到QA后面,这样SFT模型就可以转换为一个reward model,从而为我们最终服务于增强学习的stage。尽管此时模型已经从GPT模型finetune为一个专用的助手模型,但是它仅仅是具备了QA的能力,它的输出结果可能并不是最优的。目前市面上对人像生成最为真实的模型。原创 2024-01-15 18:00:00 · 972 阅读 · 1 评论 -
第二篇:大模型技术进化之GPT-1,2,3
同时通过in context的数据结构,让模型能够通过context中的prompt理解所要完成的任务,以便可以更好的对齐到下游任务中去。但是很多实验也表明,GPT-2的无监督学习的能力还有很大的提升空间,甚至在有些任务上的表现不比随机的好。GPT-2表明随着模型容量和数据量的增大,其潜能还有进一步开发的空间,基于这个思想,诞生了我们下面要介绍的GPT-3。那么下一步,就是如何将GPT-3习得的知识更好的对齐到下游任务中,真正让其发挥作用,这也就是ChatGPT要做的事。但是,GPT-1也有一定的缺点。原创 2024-01-14 23:59:53 · 858 阅读 · 1 评论 -
第一篇:大模型技术基础之Transformer崛起
其实这里KQV都是单词向量的分身,一个分身Q负责出去找联系,一个分身K作为被找的对象,找完这些联系,不能白白浪费吧,所以就加权到V身上。尽管作为一个语言模型,LLM展现出了出色的多模态数据融合能力、推理能力和新颖性,这些正在颠覆传统深度学习的研发范式。本文主要阐述大模型的技术演变路线,侧重于科普大模型的技术逻辑,技术痛点,以及一些商业机会,没有深入介绍技术细节。看完此文,你可以了解到大模型的前世今生,理解到技术发展趋势,适合准备入门大模型以及想在大模型方面创业的人士,如有表述不当之处,敬请提出。原创 2024-01-13 23:29:09 · 978 阅读 · 0 评论