Bert 长文档分重叠块

最新推荐文章于 2023-01-29 16:49:02 发布

快乐hh

最新推荐文章于 2023-01-29 16:49:02 发布

阅读量221

点赞数

本文链接：https://blog.csdn.net/qq_40375380/article/details/125275848

版权

bert 人工智能深度学习

因为bert等预训练模型长度限制为512，需要分块且块间有重叠部分，这样效果比没有重叠部分更好。代码如下：

   # text:文本  split_len:每块最大长度 over_len:重叠长度
   def get_split_text(text, split_len, overlap_len):
        split_text = []
        window = split_len - overlap_len
        w = 0
        while w * window + split_len < len(text):
            text_piece = text[w * window: w * window + split_len]
            w += 1
            split_text.append(text_piece)
        split_text.append(text[w * window:])
        return split_text