bert-base-chinese 模型
bert-base-chinese 是 Hugging Face 模型库中专门针对中文文本预训练的 BERT 模型,由谷歌官方团队开发并开源。
1. 模型基本信息
模型名称: bert-base-chinese
开发者: Google Research
语言: 中文(简体和繁体)
架构: 标准 BERT-base(与英文 bert-base-uncased 结构一致)
参数量: 约 1.1 亿
层数: 12 层 Transformer 编码器
隐藏层维度: 768
注意力头数: 12
最大序列长度: 512 tokens
2. 训练数据与词汇表
训练数据: 中文维基百科全文
其他公开的中文文本语料(具体细节未完全公开)
词汇表: 基于 WordPiece 分词,包含约 21,128 个中文字符、词语和子词。
特点:对中文分词友好,直接以字为单位(部分高频词保留完整词,如“中国”)。
3. 预训练任务
与原始 BERT 一致,采用以下两种任务:
Masked Language Model (MLM)
随机遮盖 15% 的汉字或词语,模型预测被遮盖的部分。
中文特殊处理:对汉字或词语的遮盖更符合语言特性(不同于英文的子词遮盖)。
Next Sentence Prediction (NSP)
判断两个句子是否连续(适用于问答、文本匹配等任务)
4. 模型特点
无需分词:直接以汉字为单位输入(避免中文分词错误传递),但 WordPiece 会处理部分常见词语(如“北京”可能作为一个词保留)。
大小写敏感:与 bert-base-cased 类似,区分大小写(但中文场景影响较小)。
适用任务:文本分类(如情感分析)、命名实体识别(NER)、问答系统(QA)、句子相似度计算
5. 性能与局限
优势: 在中文任务上表现优于直接使用多语言 BERT(如 bert-base-multilingual-cased)。
社区支持广泛,有大量微调教程和预训练权重。
局限: 仅基于通用语料训练,专业领域(如医疗、法律)需进一步微调。
无法处理超长文本(超过 512 token 需截断或使用 Longformer 等变体)