详解Keras3.0 KerasNLP Models: GPT2 GPT2Tokenizer

最新推荐文章于 2024-07-06 15:17:18 发布

缘起性空、

最新推荐文章于 2024-07-06 15:17:18 发布

阅读量1.1k

点赞数 10

文章标签：人工智能深度学习机器学习 keras

本文链接：https://blog.csdn.net/lymake/article/details/135164311

版权

1、GPT2Tokenizer

用于将文本数据转换为适合训练和预测的格式，主要功能是将输入的文本进行分词、编码等操作，以便在神经网络中使用

keras_nlp.models.GPT2Tokenizer(vocabulary, merges, **kwargs)

参数说明

vocabulary：一个字典，包含词汇表的映射关系。键是单词，值是对应的索引。
merges：一个列表，包含合并规则。每个元素是一个元组，表示两个需要合并的单词及其对应的索引。
**kwargs：其他可选参数。

示例

from keras_nlp.models import GPT2Tokenizer

# 定义词汇表和合并规则
vocabulary = {"hello": 1, "world": 2, "!": 3}
merges = [(1, 2)]

# 创建分词器实例
tokenizer = GPT2Tokenizer(vocabulary, merges)

# 对文本进行分词和编码
text = "hello world!"
encoded_text = tokenizer.encode(text)
print(encoded_text)  # 输出：[1, 2, 3]

# 对编码后的文本进行解码
decoded_text = tokenizer.decode(encoded_text)
print(decoded_text)  # 输出："hello world!"

2、`from_preset`

GPT2Tokenizer.from_preset()是Hugging Face的Transformers库中的一个函数，用于从预定义的预设中加载一个GPT-2分词器。这个函数可以帮助你快速地创建一个适用于特定任务的分词器，而无需从头开始训练。

GPT2Tokenizer.from_preset("gpt2_base_en")

参数说明

在这个例子中，我们加载的是"gpt2_base_en"预设，它包含了英文版本的GPT-2模型的基本参数和词汇表

示例

from transformers import GPT2Tokenizer

# 创建分词器
tokenizer = GPT2Tokenizer.from_pretrained("gpt2_base_en")

# 对输入进行分词
tokens = tokenizer("The quick brown fox tripped.")
print(tokens)  # 输出：{'input_ids': [31474, 2024, 2003, 1037, 2327, 102], 'attention_mask': [1, 1, 1, 1, 1, 1]}

# 对输入进行反分词
text = tokenizer.decode(tokens['input_ids'])
print(text)  # 输出："The quick brown fox tripped."

gpt2_base_en：这是一个12层的GPT-2模型，参数量为124.44M，保持了大小写。它使用WebText数据集进行训练。
gpt2_medium_en：这是一个24层的GPT-2模型，参数量为354.82M，保持了大小写。它也使用WebText数据集进行训练。
gpt2_large_en：这是一个36层的GPT-2模型，参数量为774.03M，保持了大小写。同样使用WebText数据集进行训练。
gpt2_extra_large_en：这是一个48层的GPT-2模型，参数量为1.56B，保持了大小写。它也使用WebText数据集进行训练。
gpt2_base_en_cnn_dailymail：这是一个12层的GPT-2模型，参数量为124.44M，保持了大小写。它使用CNN/DailyMail摘要生成数据集进行微调。

缘起性空、

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
详解Keras3.0 KerasNLP Models: GPT2 GPT2Tokenizer

GPT2Tokenizer 用于将文本数据转换为适合训练和预测的格式，主要功能是将输入的文本进行分词、编码等操作，以便在神经网络中使用
复制链接

扫一扫