An affordable way to making money:transformer用于企业级小模型训练的一种设计思路(四)

第一个训练阶段,我们曾经尝试这样的初始化:

n_layers = 12           # decoder_only 一共经历12个循环层                                                                 d_model=64           # 每个分词从size_vacab维度的空间,映射到64维度的低维空间                        n_head = 8             # 预设8个头,分别从八个方向来提取特征指标                                                  d_ff = 256               # 从全连接里映射到维度为256的高维空间,然后再缩小到64维度的低维空                                        间,看看究竟哪些分类的基在当前向量里是最有价值的         

为此,我们预先准备了0.7M条微型训练集,热热身。

目前这样小规模的训练集能够让transformer在70%以上的精度上,准确识别到了快消品里的关键词、行业语义逻辑以及一些精炼对话,从而为后面的价格agent、情绪agent等MOE的上阵围建好了更小的语言外延层。回顾过去的50天,我们经历很多的坑,并且反复为此调整上面的参数、训练集清洗、以及分类和分词策略。

Unlike大模型的大力出奇迹的方法,我们在第十天的时候,放弃了精确分词的策略,因为这会导致维度(d_model)  过大,从而继续陷入scaling law的怪圈里——用小模型的训练集是没有可能通过神经网络线性表示的逻辑、快速捕捉专业场景的语境的。于是,我们转而缩小了分类,利用价值打分的规则,先设定了高价值、有价值、无价值、敏感词这四个分类。其

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值