![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Pytorch
文章平均质量分 52
天才小呵呵
Groping about in the dark, and venturing into the unknown.
展开
-
NLP文档挖宝(3)——能够快速设计参数的TrainingArguments类
整个任务中的调参“源泉”就是这个TrainingArguments类,这个类是使用dataclass装饰器进行包装,然后再利用HfArgumentParser进行参数的解析,最后获得了对应的内容。这个包可以调的参数有很多,有用的也有很多,所以还是有必要一起看一下的。原创 2021-05-29 00:09:17 · 7521 阅读 · 4 评论 -
NLP文档挖宝(2)——通过Huggingface Transformers 分享与上传自己的预训练模型
最近团队完成了一个面向古文语料的预训练模型,准备拥抱开源,但是没想到被中文的上传指南坑了,看了官网提供的文档,发现中文的翻译文档已经过时了,所以重写来写一下上传的方法。原创 2021-05-08 21:27:38 · 3485 阅读 · 11 评论 -
BERT多语言版本预训练模型上线前需要对句子进行人工分字
BERT多语言版本用于处理混合了中英文单词的文本前需要这样一下下。原创 2021-01-19 17:40:09 · 1249 阅读 · 0 评论 -
Transformers包中BERT类预训练模型下载链接备份
pytorch版本BERT预训练模型,需要啥直接下载原创 2020-12-29 16:22:55 · 1176 阅读 · 0 评论 -
BERT tokenization 处理英文句子 Wordpiece之后的处理技巧
WoTransformers包中自带了tokenizer方法可以帮助我们实现Wordpiece,那么这种格式如何应用到序列标注问题中呢?原创 2020-12-01 15:12:30 · 3515 阅读 · 5 评论 -
Transformers(Huggingface)包调用Roberta需要修改预训练文件名称
修改下载好的Roberta预训练模型中的文件名,以及如何使用加载语句。就是如此简单。原创 2020-11-06 17:17:02 · 8644 阅读 · 13 评论 -
安装torchtext记录—没有什么安装失败是重装一遍解决不了的
pip uninstall 带我走向胜利原创 2020-08-18 11:09:22 · 1337 阅读 · 2 评论 -
送丹入炉:学会使用Dataloader方法包装我们的数据 【PyTorch】
Dataloader可以帮我们返回封装好的batch内容,采用迭代读取的方式完成训练,占用更少内存。原创 2020-08-16 23:50:38 · 2183 阅读 · 0 评论 -
Transformers包tokenizer.encode()方法源码阅读笔记
1 引言Hugging Face公司出的transformer包,能够超级方便的引入预训练模型,BERT、ALBERT、GPT2… tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = BertForTokenClassification.from_pretrained('bert-bas...原创 2020-04-10 18:46:01 · 30243 阅读 · 23 评论