MegatronLM源码阅读-数据预处理

数据处理入口:

python tools/preprocess_data.py \
       --input content.jsonl \
       --output-prefix wudaocorpus_01 \
       --vocab ../starcoder/vocab.json \
       --dataset-impl mmap \
       --tokenizer-type GPT2BPETokenizer \
       --merge-file ../starcoder/merges.txt \
       --json-keys content \
       --workers 10 \
       --chunk-size 500 \
       --append-eod

--input:要处理的jsonl数据

--output-prefix:处理完成后生成的bin和idx文件的名称前缀

--vocab-file:分词表文件,列出了模型已知的所有单词和子词,一般也是“字典文件”,可以将字符或者字符串转为模型可以读取的索引号

--tokenizer-type:tokenzier类型,如果选择是GPT2BPETokenizer的话,则一定要有:--vacal-file和--merge-file两个参数,这里根据./megatron/tokenizer/tokenizer.py#40和#52行可知;GPTBPETokenizer所用算法为BPE(byte-pair encoding)字节对编码

--merge-file:合并文件,指示如何合并字符和字词以形成更长字词的文件,每行都是一个合并操作,合并操作的大概步骤为:

举例处理英文字符串“lower”:
初始状态,将字符串分解为单个字符:'l','o','w','e','r'
假设merge-file中的内容为:
merges = [
    ('l', 'o'),
    ('o', 'w'),
    ('e', 'r')
]
使用第一个合并规则(l + o -> lo):'lo','w','e','r'
第二个合并规则(o + w)在此上下文中不适用,因此没有改变
使用第三个合并规则(e + r -> er):'lo','w','er'
最终的BPE分词结果为:'lo','w','er'

如果是处理中文字符串时,如果vocab.txt中不支持中文,那么可以将中文字符串先转为utf-8编码格式的字符串,然后按照上边的步骤进行合并

--json-key:需要处理的jsonl中对应key-value

--workers:进程数

--chunk-size:每进程一次处理的文本数

--append-eod:是否在文本末尾添加 标记

进入preprocess_data.py

假设我们提供的jsonl为:

{"src": "www.nvidia.com", "content": "The quick brown fox", "type": "Eng", "id": "0", "title": "First Part"}

{"src": "The Internet", "content": "jumps over the lazy dog", "type": "Eng", "id": "42", "title": "Second Part"}

{"src": "The Internet", "content": "apple is 苹果。", "type": "Eng", "id": "42", "title": "Second Part"}

class Encoder(object):
    def __init__(self, args):
        self.args = args

    def initializer(self):
        # Use Encoder class as a container for global data
        Encoder.tokenizer = build_tokenizer(self.args)#当前入口为这个:GPT2BPETokenizer
        if self.args.split_sentences:
            if not nltk_available:
                print("NLTK is not available to split sentences.")
                exit()
            splitter = nltk.load("tokenizers/punkt/english.pickle")
            if self.args.keep_newlines:
                # this prevents punkt from eating newlines after sentences
                Encoder.splitter = nltk.tokenize.punkt.PunktSentenceTokenizer(
                    train_text = splitter._params,
                    lang_vars = CustomLanguageVars())
            else:
                Encoder.splitter 
  • 20
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Hive是一个基于Hadoop的数据仓库基础结构,它提供了SQL查询和数据分析功能。Hive的源代码阅读是指对Hive项目的源代码进行逐行分析和理解,以深入了解Hive的内部工作原理和实现细节。 Hive的源代码阅读可以从导读开始。导读部分是Hive代码仓库中的一些重要文档和指南,它们提供了关于Hive项目的概述和指导。 首先,我们可以阅读Hive项目的README文件。该文件通常包含了对项目的介绍、功能特点和使用说明。README文件一般会介绍Hive的目标、核心组件和HiveQL查询语言等内容,为我们提供了整体了解Hive的入口。 接下来,我们可以查看Hive项目中的文档目录。在这个目录下,我们可以找到各种文档、指南和设计文档,它们详细描述了Hive的不同方面和内部机制。这些文档可以帮助我们了解Hive的体系结构、数据处理流程、优化技巧等内容,为后续阅读源代码提供了必要的背景知识。 此外,还可以关注Hive项目的WIKI页面。Hive的WIKI页面常常有丰富的内容,包括开发指南、常见问题解答等。这些页面中提供了一些较为具体和实用的信息,可以帮助我们更好地理解Hive的源代码。 在阅读Hive源代码时,我们应该注重核心模块和关键类的分析。可以从查询解析器、查询优化器和执行引擎等模块开始阅读。这些模块负责将HiveQL查询转化为Hadoop任务并执行查询操作。 最后,我们还可以参考Hive源代码中的注释和代码文档。良好的代码注释可以帮助我们理解代码的意图和实现细节,而代码文档则可以提供更加详细的说明和使用方法。 综上所述,Hive源码阅读的导读包括了阅读README文件、查看文档目录和WIKI页面、重点关注核心模块和关键类的分析,以及参考代码注释和文档等内容。通过导读,我们可以为接下来的源码阅读做好准备,更好地理解Hive的工作原理和实现方式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HaoRenkk123

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值