最近工作中,涉及到了大模型训练的一些工作,我们选取了Megatron-DeepSpeed的技术方案,在当下的时候就有一个工作,就是将一些国产模型给适配上,诸如Baichuan2系列,QWen系列。
之前一直没有开展国产开源大模型的相关工作,不太清楚到底做了哪些创新,还有点怯,做好了学习理解的准备,我们的技术思路一般都相较于老外比较trick。
结果调研了半天,大跌眼镜,并且有些疑问。
Baichuan2,QWen系列的这些模型,你们到底相较于开源的LLaMa框架,需要该点啥,生成mask设计这儿改了一些逻辑,然后词库换了一下。
啊,这。。。
你为啥要改个名字呢,为啥呢,就尊重一下人家LLaMa不好吗。