Bert Model 训练遇到的问题描述

最新推荐文章于 2024-04-29 14:41:36 发布

不放糖的苦咖啡

最新推荐文章于 2024-04-29 14:41:36 发布

阅读量1.8k

点赞数 1

分类专栏： CNN 个人工作小结文章标签： bert 人工智能深度学习

本文链接：https://blog.csdn.net/it_lxg123/article/details/121142057

版权

1. tokenizer.encode() 方法与 tokenizer.tokenize() 之间的区别：
(1) tokenizer.encode() 返回其在字典中的id

(2) tokenizer.tokenize() 返回 token

def bert_():
    model_name = 'bert-base-chinese'
    MODEL_PATH = 'F:/models/bert-base-chinese/'

    # a.通过词典导入分词器
    tokenizer = BertTokenizer.from_pretrained(model_name)
    # b. 导入配置文件
    model_config = BertConfig.from_pretrained(model_name)
    # 修改配置
    model_config.output_hidden_states = True
    model_config.output_attentions = True
    # 通过配置和路径导入模型
    bert_model = BertModel.from_pretrained(MODEL_PATH, config=model_config)
    # tokenizer.encode()
    sen_code_encode = tokenizer.encode("自然语")
    print("sen_code_encode",sen_code)
    # tokenizer.tokenize
    sen_code_tokenizer = tokenizer.tokenize("自然语")
    print("sen_code_tokenizer", sen_code0)

if __name__ == '__main__':
    bert_()

最低0.47元/天解锁文章

不放糖的苦咖啡

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Bert Model 训练遇到的问题描述

1. tokenizer.encode() 方法与 tokenizer.tokenize() 之间的区别：(1) tokenizer.encode()返回其在字典中的id(2) tokenizer.tokenize() 返回 tokendef bert_(): model_name = 'bert-base-chinese' MODEL_PATH = 'F:/models/bert-base-chinese/' # a.通过词典导入分词器 tokenizer.
复制链接

扫一扫