![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
AI
文章平均质量分 91
SmallTenMr
能识何人,决定你与何人处。与何人处,决定你能成何人!
展开
-
大模型LLM深入浅出、主打通俗易懂
众所周知,如果想直接训练蓝色的原始模型,将是十分耗费资源,需要8张A100显卡(A100目前市场价格13万一个),并且训练中耗费大量电力资源(OpenAI的chatGPT-3训练一次的成本约为140万美元),而为了节省资源,LoRA思想是将右边橘色的两个模型,先分别初始化为高斯分布和0,训练的时候固定预训练语言模型的参数(蓝色部分),只训练降维矩阵 A 与升维矩阵 B,而模型的输入输出维度不变,输出时将 BA 与预训练语言模型的参数叠加。根据上述已知信息,简洁和专业的来回答用户的问题。原创 2023-09-20 09:57:03 · 2915 阅读 · 0 评论 -
谈谈我对ai发展的看法
在GPT-3发布之前,最大的语言模型是微软在2020年推出的图灵Turing NLG, 参数达到170亿,仅是GPT-3的10% ,目前来看,GPT-3是全球最大数据参与的模型训练,它也是基于传统的NLP和机器学习的一种模型,依然使用神经网络架构,其中包含很多深度学习层,初始模型(监督训练) -> RLHF(Reward 模型) -> 深度自我学习,详细原理有兴趣可以爬梯子去官方一探究竟。但是得到的都是局部最优解,并非全局最优,训练时可能都无法收敛,有限数据还会带来泛化不足的问题。原创 2023-02-20 16:28:16 · 2388 阅读 · 0 评论