(pytorch) bert-base-chinese模型文件下载

最新推荐文章于 2025-03-03 11:41:32 发布

Arms206

最新推荐文章于 2025-03-03 11:41:32 发布

阅读量3.9w

点赞数 35

文章标签：自然语言处理深度学习 pytorch nlp

本文链接：https://blog.csdn.net/sdaujz/article/details/107547503

版权

本文介绍如何从HuggingFace的网站下载并使用预训练的BERT模型进行中文文本处理。详细步骤包括下载配置文件、模型权重和词汇表，以及使用transformers库中的BertTokenizer和BertModel进行模型加载。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

用的是transformers，进入 hugging face 的这个网站：bert-base-chinese · Hugging Face

在 Files and Versions 中对应下载或另存为(有的下完要重命名一下)

所需要的就是 config.json, pytorch_model.bin, vocab.txt 这几个文件

建立了如下文件夹路径来存放这些文件

└─bert
│ vocab.txt
│
└─bert-base-chinese
config.json
pytorch_model.bin

from transformers import BertTokenizer

vocab_file = 'bert/vocab.txt'

tokenizer = BertTokenizer(vocab_file)

from transformers.modeling_bert import BertModel

bert = BertModel.from_pretrained("bert/bert-base-chinese/")

此处用的 transformers的版本是3.2.0

往下具体再怎么使用，可以去github找一些具体任务，

如文本分类之类的项目代码，看处理步骤。

放一个我以前跟着做的法研杯的一个任务，有基线代码

学会使用pytorch的bert也是从这个基线代码学到的，不过单机多卡的分布式训练还没搞懂：