使用BERT的tokenizer替换spacy的tokenizer

使用BERT的tokenizer替换spacy的tokenizer

spacy是支撑自己编写tokenzier的,可以非常简单的将tokenizer换成BERT的tokenizer

  • 写一个类继承spacy.tokenizer.Tokenizer,自定义分词规则的时候传入BERT的tokenizer
class CustomTokenizer(Tokenizer):
    def __init__(self,vocab,tokenizer):  
        super().__init__(vocab)
        # 自定义分词规则  
        self.bert_tokenizer = tokenizer
    def __call__(self, text):  
        # 自定义分词逻辑  
        tokens = self.bert_tokenizer.tokenize(text)  
        doc = spacy.tokens.doc.Doc(self.vocab,tokens)  
        return doc
  • 导入spacy模型、BERT的tokenizer,实例化一个spacy的Tokenizer类并替换spacy的tokenizer
nlp = spacy.load('en_core_web_lg')
bert_tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
tokenizer = CustomTokenizer(nlp.vocab,bert_tokenizer)
nlp.tokenizer = tokenizer
  • 测试
text = "I am spiderman."
doc = nlp(text)
for token in doc:
    print(token.text)
'''output
i
am
spider
##man
.
'''
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值