纯属个人猜测:
Decoder训练对文本补全,文本问答,文本多轮对话的训练数据集更容易适配,对长度外推也更友好。再有就是Decoder结构简单,容易学吧!
为什么大多数LLM都选择Decoder结构呢?
最新推荐文章于 2024-10-17 10:08:59 发布
纯属个人猜测:
Decoder训练对文本补全,文本问答,文本多轮对话的训练数据集更容易适配,对长度外推也更友好。再有就是Decoder结构简单,容易学吧!