tokenizer = BertTokenizer(os.path.join(bert_dir, 'vocab.txt'))
def fine_grade_tokenize(raw_text, tokenizer):
"""
序列标注任务 BERT 分词器可能会导致标注偏移,
用 char-level 来 tokenize
"""
tokens = []
for _ch in raw_text:
if _ch in [' ', '\t', '\n']:
tokens.append('[BLANK]')
else:
if not len(tokenizer.tokenize(_ch)):
tokens.append('[INV]')
else:
tokens.append(_ch)
return tokens
中文分词:按char-level(字)来切分
最新推荐文章于 2024-07-16 10:12:59 发布