大模型
文章平均质量分 58
walker.wu
这个作者很懒,什么都没留下…
展开
-
大模型底层结构之Transformer
Transformer是一种端到端(sequence-to-sequence)模型,由Vaswani等人在2017年的论文《Attention is All You Need》中提出。它革新了自然语言处理领域,尤其是机器翻译,相较于之前的循环神经网络(RNNs)和卷积神经网络(CNNs),Transformer模型具有更快的并行化训练和更高效的性能。原创 2024-07-18 17:21:27 · 202 阅读 · 0 评论 -
大模型开山鼻祖之InstructGPT
InstructGPT 开创了一个经典的模型训练方法:先进行预训练,然后是监督式微调,最后是基于强化学习的人类反馈(Reinforcement Learning from Human Feedback, RLHF)训练模型。在最近两年,大家都在寻找替代RLHF的训练方式(DPO等),虽然在论文中一直在极力的证明的DPO的有效性,但是实际应用中效果并不明显。(2)奖励模型(RM)训练;训练数据结构:在这一步中,不需要额外的数据集,而是使用奖励模型作为环境的一部分,来动态地评价模型的输出,并据此更新模型参数。原创 2024-07-18 11:24:16 · 550 阅读 · 0 评论 -
Baichuan2保姆级教程
基座模型可能已经见过某些领域的大量数据,本身表现就很好,微调后提升比较明显。数据质量非常重要,爬取的数据,可能很多类似问题答案不同,甚至南辕北辙的情况,严重影响模型学习。数据分布非常重要,超参影响反而没那么大,可能只影响几个点,不明显,但是数据分布和数据质量不好,可能直接就学不出来,另外不平衡问题也存在。全参模型遗忘比较严重,lora在某些数据不容易收敛。原创 2023-11-05 12:21:06 · 417 阅读 · 0 评论