![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
文章平均质量分 91
阿唐明
time is money
https://www.zhihu.com/people/hirolin-89
展开
-
小白Bert系列-albert
albert https://arxiv.org/pdf/1909.11942.pdf主要几点:1.词嵌入部分进行矩阵分解减少参数量2.block参数共享较少参数,更好鲁棒性3.改用sop学习句子顺序关系4.去掉dropout,增加数据源还有一点 ngram masking 意思就是之前任务中都是masking单个字,ngram相当于是短语,任务更难了。1.矩阵分解在bert模型中,词嵌入向量部分通过全连接方式学习, 设词汇量为V,词向量维度和隐藏层维度H是一样。那词嵌入矩阵大小为VH。例如原创 2021-10-09 19:19:20 · 393 阅读 · 0 评论 -
bert源码解析-modeling.py
bert源码解析-modeling.pybert是transformer的encoder部分,以google-bert源代码为例。由两个重要的class组成:1.BertConfig 大多时候改动的参数并不多,知晓这些参数可以便于推算模型的大小,比如隐藏层大小768class BertConfig(object): def __init__(self, vocab_size, hidden_size=768,原创 2021-10-09 19:14:40 · 1499 阅读 · 0 评论