Bert Pretrain

最新推荐文章于 2023-07-29 20:15:37 发布

o6eceici

最新推荐文章于 2023-07-29 20:15:37 发布

阅读量531

点赞数

文章标签： nlp

本文链接：https://blog.csdn.net/o6eceici/article/details/107801999

版权

本文介绍了使用Google的Tensorflow BERT源代码进行预训练的过程。预训练阶段创建了训练数据，建立词表和分词器，由于取消NSP任务，文档被分割成多个256长度的段，每个段执行掩码语言模型并转化为tfrecord格式。在训练中，仅执行掩码语言模型任务，使用了BERT-mini模型以适应句子长度并减少训练时间。最后，将Tensorflow的检查点权重转换为Pytorch格式。

摘要由CSDN通过智能技术生成

预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文本中创建训练数据，由于本次比赛的数据都是ID，这里重新建立了词表，并且建立了基于空格的分词器。

class WhitespaceTokenizer(object):
"""WhitespaceTokenizer with vocab."""
def __init__(self, vocab_file):
self.vocab = load_vocab(vocab_file)
self.inv_vocab = {
   v: k for k, v in self.vocab.items()}
def tokenize(self, text):
split_tokens = whitespace_tokenize(text)
output_tokens = []
for token in split_tokens:
if token in self.vocab:
output_tokens.append(token)
else:
out