【ChatBot开发笔记】语料预处理——tokenize

最新推荐文章于 2023-05-09 22:42:38 发布

Mars_阿火

最新推荐文章于 2023-05-09 22:42:38 发布

阅读量532

点赞数

分类专栏： ChatBot 文章标签： python nlp

本文链接：https://blog.csdn.net/qq_44776055/article/details/115985245

版权

这篇博客介绍了在ChatBot开发中，针对GPT2模型进行语料预处理的过程。主要关注点在于将语料切分为字，并使用[CLS]和[SEP]标记区分，同时将每个字转换为字典对应的tokenize_id。

摘要由CSDN通过智能技术生成

GPT2模型的期望粒度是字而非词，故建立字典，通过tokenize完成两件事：

切分语料，以[CLS]标志语料开头，以[SEP]划分说话对象
完成字到字典id（tokenize_id）的转变

def preprocess_raw_data(args, tokenizer, n_ctx):
    """
    对原始语料进行处理，将原始语料转换为用于train的token id，对于每个dialogue，将其处于成如下形式"[CLS]utterance1[SEP]utterance2[SEP]utterance3[SEP]"
    :param args:
    :param tokenizer:
    :param n_ctx:GPT2模型的上下文窗口大小,将超过300的dialogue截断
    :return:
    """

    logger.info("tokenizing raw data,raw data path:{}, token output path:{}".format(args.train_raw_path,
                                                                                    args.train_tokenized_path))
    # 将smalldata/data.txt读入data中
    with open(args.

最低0.47元/天解锁文章

Mars_阿火

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
【ChatBot开发笔记】语料预处理——tokenize

GPT2模型的期望粒度是字而非词，故建立字典，通过tokenize完成两件事：切分语料，以[CLS]标志语料开头，以[SEP]划分说话对象完成字到字典id（tokenize_id）的转变def preprocess_raw_data(args, tokenizer, n_ctx): """ 对原始语料进行处理，将原始语料转换为用于train的token id，对于每个dialogue，将其处于成如下形式"[CLS]utterance1[SEP]utterance2[SEP]utte
复制链接

扫一扫

专栏目录