- 书生·浦语的开源之路
- 每一代InternLM模型的性能天梯
- 核心技术思路
其中,第三个基于人类反馈的强化训练就是模型在生成多样化东西的时候,人类给它进行一个满意度的排序,从而通过这个排序来让模型在以后的版本中更容易生成符合人类要求的答案。因为有时候只去做相似度对齐的训练的话,并不一定是符合人类满意的。
- 基于规划和搜索解决复杂问题的思路
- 书生·浦语开源模型谱系
从模型量级上来说,1.8B(billion)指的是10亿级参数量的模型。
- 书生·浦语全链条开源生态总览图
- 开源数据处理工具箱
其中,第三个基于人类反馈的强化训练就是模型在生成多样化东西的时候,人类给它进行一个满意度的排序,从而通过这个排序来让模型在以后的版本中更容易生成符合人类要求的答案。因为有时候只去做相似度对齐的训练的话,并不一定是符合人类满意的。
从模型量级上来说,1.8B(billion)指的是10亿级参数量的模型。