中文分词：按char-level（字）来切分

最新推荐文章于 2024-07-16 10:12:59 发布

u013250861

最新推荐文章于 2024-07-16 10:12:59 发布

阅读量140

点赞数

分类专栏： # NLP/IE-命名实体识别（NER）文章标签：中文分词自然语言处理

本文链接：https://blog.csdn.net/u013250861/article/details/129079593

版权

NLP/IE-命名实体识别（NER）专栏收录该内容

29 篇文章 6 订阅

订阅专栏

tokenizer = BertTokenizer(os.path.join(bert_dir, 'vocab.txt'))

def fine_grade_tokenize(raw_text, tokenizer):
    """
    序列标注任务 BERT 分词器可能会导致标注偏移，
    用 char-level 来 tokenize
    """
    tokens = []

    for _ch in raw_text:
        if _ch in [' ', '\t', '\n']:
            tokens.append('[BLANK]')
        else:
            if not len(tokenizer.tokenize(_ch)):
                tokens.append('[INV]')
            else:
                tokens.append(_ch)

    return tokens