第一个训练阶段,我们曾经尝试这样的初始化:
n_layers = 12 # decoder_only 一共经历12个循环层 d_model=64 # 每个分词从size_vacab维度的空间,映射到64维度的低维空间 n_head = 8 # 预设8个头,分别从八个方向来提取特征指标 d_ff = 256 # 从全连接里映射到维度为256的高维空间,然后再缩小到64维度的低维空 间,看看究竟哪些分类的基在当前向量里是最有价值的
为此,我们预先准备了0.7M条微型训练集,热热身。
目前这样小规模的训练集能够让transformer在70%以上的精度上,准确识别到了快消品里的关键词、行业语义逻辑以及一些精炼对话,从而为后面的价格agent、情绪agent等MOE的上阵围建好了更小的语言外延层。回顾过去的50天,我们经历很多的坑,并且反复为此调整上面的参数、训练集清洗、以及分类和分词策略。
Unlike大模型的大力出奇迹的方法,我们在第十天的时候,放弃了精确分词的策略,因为这会导致维度(d_model) 过大,从而继续陷入scaling law的怪圈里——用小模型的训练集是没有可能通过神经网络线性表示的逻辑、快速捕捉专业场景的语境的。于是,我们转而缩小了分类,利用价值打分的规则,先设定了高价值、有价值、无价值、敏感词这四个分类。其