41-----从头开始训练语言模型

最新推荐文章于 2024-08-06 22:00:00 发布

Q shen

最新推荐文章于 2024-08-06 22:00:00 发布

阅读量153

点赞数

分类专栏： txtai 教程系列（45 部分系列）文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/qq_52010446/article/details/130570655

版权

本文介绍如何使用txtai构建和训练一个微型语言模型，包括分词器的训练、模型参数调整，以及如何在有限资源环境下应用。通过示例展示了从头开始训练的过程，并探讨了微模型在特定场景下的优势。

摘要由CSDN通过智能技术生成

txtai 有一个强大的训练管道，可以为下游任务（如标记文本）微调大型语言模型（LLM）。txtai 还具有从头开始训练语言模型的能力。

绝大多数时候，微调 LLM 会产生最好的结果。但是当对模型的结构进行重大更改时，通常需要从头开始训练。

重大变化的例子是：

改变词汇量
更改隐藏维度的数量
更改注意力头或层数
本文将展示如何构建一个新的分词器并从头开始训练一个小型语言模型（称为微模型）。

安装依赖
安装txtai和所有依赖项。

Install txtai

pip install txtai datasets sentence-transformers onnxruntime onnx
加载数据集
此示例将使用ag_news数据集，它是新闻文章标题的集合。
from datasets import load_dataset

dataset = load_dataset(“ag_news”, split=“train”)
训练分词器
第一步是训练分词器。我们可以使用现有的分词器，但在这种情况下，我们需要更小的词汇表。
from transformers import AutoTokenizer

def stream(batch=10000):
for x in range(0, len(dataset), batch):
yield dataset[x: x + batch][“text”]

tokenizer = AutoTokenizer.from_pretrained(“bert-base-uncased”)
tokenizer = tokenizer.train_new_from_iterator(stream(), vocab_size=500, length=len(dataset))
tokenizer.model_max_length = 512

tokenizer.save_pretrained(“bert”)
让我们测试分词器。
print(tokenizer.tokenize(“Red Sox defeat Yankees 5-3”))
[‘re’, ‘##d’, ‘so’, ‘##x’, ‘de’, ‘##f’, ‘##e’, ‘##at’, ‘y’, ‘##ank’, ‘##e’, ‘##es’, ‘5’, ‘-’, ‘3’

最低0.47元/天解锁文章

Q shen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
41-----从头开始训练语言模型

txtai 有一个强大的训练管道，可以为下游任务（如标记文本）微调大型语言模型（LLM）。txtai 还具有从头开始训练语言模型的能力。绝大多数时候，微调 LLM 会产生最好的结果。但是当对模型的结构进行重大更改时，通常需要从头开始训练。重大变化的例子是：改变词汇量更改隐藏维度的数量更改注意力头或层数本文将展示如何构建一个新的分词器并从头开始训练一个小型语言模型（称为微模型）。安装依赖安装txtai和所有依赖项。
复制链接

扫一扫