BERT

最新推荐文章于 2022-01-20 09:30:41 发布

wangxiaosu

最新推荐文章于 2022-01-20 09:30:41 发布

阅读量337

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangxiaosu0501/article/details/89216260

版权

GitHub：https://github.com/google-research/bert

一、准备用于训练的数据：（参考：Pre-training with BERT）

1、从GitHub的说明可知，用于训练的语料（纯文本）可以放在多个文件中，每个文件中一个句子放在一行，每个文件中来自同一篇文档的句子之间没有空行，不同文档之间的用一个空行间隔，以示区别不同的文档。

2、获得从纯文本到用于TF训练输入的脚本是：create_pretraining_data.py

运行该文档需要一个词表 vocab.txt，BERT没有说明该词表应该如何产生，并且BERT给出的示例运行脚本中使用的是一个 sample_text.txt 文件，该文件中是英文，所以猜测只要将BERT发布的 Pre-trained models 中任何一个模型中包含的vocab.txt 拿过来放到这边就可以了；不需要自己根据sample_text.txt 重新产生一个vocab.txt

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。