背景
由于google提供bert_base_zh的参数太多,模型大太,大约400M,无论是使用bert进行fine-tuning或者是对bert进行再训练的训练成本会变大。所以就对bert进行了一些优化。
主要从以下几个点对bert进行了优化:
- 词嵌入向量的因式分解
O ( V ∗ H ) − > O ( V ∗ E + E ∗ H ) O(V*H)->O(V*E +E*H) O(V∗H)−>
背景
由于google提供bert_base_zh的参数太多,模型大太,大约400M,无论是使用bert进行fine-tuning或者是对bert进行再训练的训练成本会变大。所以就对bert进行了一些优化。
主要从以下几个点对bert进行了优化: