使用未标注数据训练BERT

最新推荐文章于 2023-05-04 18:42:30 发布

睡熊猛醒

最新推荐文章于 2023-05-04 18:42:30 发布

阅读量3.6k

点赞数 6

分类专栏：语言模型 NLP 深度学习文章标签：自然语言处理预训练模型

本文链接：https://blog.csdn.net/weixin_41089007/article/details/105596476

版权

说来惭愧，BERT等预训练模型用来做下游任务做了这么久了，居然一直不知道怎么用未标注数据训练它们，这里以BERT为例子介绍一下如何使用自己的未标注数据快速训练预训练模型。

其实也很简单，BERT的github上面就有：https://github.com/google-research/bert

分为两步，第一步：准备一个txt文件，这个文件就是你要训练BERT的自己的数据。训练的目的其实就是让BERT能对你数据中的那些黑话（专有名词等）有所熟悉。格式大改这样就行：

然后执行：

python create_pretraining_data.py \
  --input_file=./sample_text.txt \
  --output_file=/tmp/tf_examples.tfrecord \
  --vocab_file=$BERT_BASE_DIR/vocab.txt \
  --do_lower_case=True \
  --max_seq_length=128 \
  --max_predictions_per_seq=20 \
  --masked_lm_prob=0.15 \
  --random_seed=12345 \
  --dupe_factor=5

max_predictions_per_seq是每个序

最低0.47元/天解锁文章

睡熊猛醒

关注

6
点赞
踩
39

收藏

觉得还不错? 一键收藏
0
评论
使用未标注数据训练BERT

说来惭愧，BERT等预训练模型用来做下游任务做了这么久了，居然一直不知道怎么用未标注数据训练它们，这里以BERT为例子介绍一下如何使用自己的未标注数据快速训练预训练模型。其实也很简单，BERT的github上面就有：https://github.com/google-research/bert分为两步，第一步：准备一个txt文件，这个文件就是你要训练BERT的自己的数据。训练的目的其实就是...
复制链接

扫一扫

专栏目录