LLM
文章平均质量分 94
大语言模型学习路径
_laolao_
追求卓越中
展开
-
3.OpenAI大模型开发与实践
也不一定,越大的模型需要的算力/成本就越高,如果模型轻量化一点,那么部署在手机这种终端上才有可能。像GPT-4由多个大模型组成,它会对每个大模型生成的结果再进行加权选择获得一个最终的结果,包括ToT(Tree of Thoughts)最佳思维链的选择,这都是非常消耗算力的。计算一段文本的token数的用处:1.估计成本,模型是按输入/输出tokens算钱的 2.控制对模型输入的token数(一旦input的token数超过模型的最大输入token数的限制,就会报错)原创 2023-11-12 21:21:22 · 143 阅读 · 0 评论 -
2.Embedding
比如对于组合起来能表示任何颜色的三原色红蓝绿,分别用一个矩阵表示图像在对应原色矩阵中的各个像素点的值(这里可以把每个像素点的值设为0~256,也可以设的更高,比如0~512,这样就是表达出来的颜色更精细)。2006,Hinton提出了一个叫做t-SNE的降维方法,它能够很好的把高维空间的数据映射到低维空间,并且保持了向量间的相对关系(语义信息保留住了)。比如种族偏见,因为统计词的概率分布的时候,把人的偏见(体现在文章中)也统计进来了。词嵌入能捕捉到词间的关系,比如相似的词向量间的差也应该相似。原创 2023-10-29 22:05:13 · 76 阅读 · 1 评论 -
1.大模型基础:GPT模型家族&提示学习
2018年的GPT-1是一个基于decoder的预训练模型的大成功。原创 2023-10-23 23:32:13 · 258 阅读 · 0 评论