- 博客(3)
- 收藏
- 关注
原创 书生·浦语大模型笔记
InternLM2模型通过创新的预训练和优化技术,在六个维度和30个基准测试中表现出色。该模型能够高效捕捉长期依赖关系,最初在4k tokens上训练,然后进阶到32k tokens,并在200k的“针堆”测试中展现出卓越的性能。通过监督式微调(SFT)和一种新的基于条件在线强化学习(COOL RLHF)的策略,InternLM2进一步与人类偏好对齐,解决了冲突的人类偏好和奖励黑客问题。
2024-05-27 11:23:56 321
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人