因为自己搭建了一个4层的transformer网络,然后词向量的维度是96(attention is all you need里面transformer block的dim=512),这里设置96是为了后续我需要做一些attack的任务。
然后使用transformer4对YELP(5分类)分类的时候,performance一直在58%上下波动,尝试了各种调参发现都上不了60%。 后面都要尝试用预训练的embedding了。 但=结果调了一下embedding 96->128 。 ACC 就上升了。
词向量维度对模型的影响
-
表达能力:
- 词向量的维度越高,每个词可以携带更多的信息,有助于模型更好地捕捉语义关系。然而,维度过高也可能导致参数过多,增加过拟合的风险。
-
参数量:
- 词向量的维度增加会显著增加模型的参数量,尤其是在嵌入层和后续的线性层中。这会影响模型的训练效率和性能。
-
计算复杂度:
- 更高的维度会增加计算复杂度,导致训练时间增加。如果计算资源有限,可能需要平衡维度和计算资源。
-
训练速度:
- 维度较低的词向量训练速度更快,因为计算量较少,但可能不能充分表达复杂的语义关系。