昇思25天学习打卡营第12天 |昇思MindSpore 文本解码原理 -- 以 MindNLP 为例

最新推荐文章于 2024-08-30 19:40:45 发布

Mr_Orangechen

最新推荐文章于 2024-08-30 19:40:45 发布

阅读量423

点赞数 4

分类专栏：昇思25天学习打卡文章标签：学习

本文链接：https://blog.csdn.net/Mr_Orangechen/article/details/140828335

版权

昇思25天学习打卡专栏收录该内容

28 篇文章 2 订阅

订阅专栏

一、环境准备

# 安装指定版本的 MindSpore
!pip uninstall mindspore -y
!pip install -i https://pypi.mirrors.ustc.edu.cn/simple mindspore==2.2.14
!pip uninstall mindvision -y
!pip uninstall mindinsight -y

# 安装 MindNLP
!pip install mindnlp

二、自回归语言模型回顾
一个文本序列的概率分布可以分解为每个词基于其上文的条件概率的乘积，原理公式如： $P(w_{1:T}) = \prod_{t=1}^{T} P(w_t | w_{1:t-1})$

三、自回归语言模型的应用领域

自然语言生成：如文章写作、故事创作、对话生成等。
机器翻译：预测下一个单词以生成翻译后的文本。
语音识别：将语音转换为文本。
代码生成：生成程序代码。

四、如何评估自回归语言模型的性能

困惑度（Perplexity）：衡量模型对测试集的预测能力，值越低表示模型性能越好。
BLEU 得分：常用于评估机器翻译的质量，也可用于评估生成文本与参考文本的相似度。
ROUGE 得分：用于评估摘要生成的质量。
人工评估：通过人类评估者对生成的文本进行质量、合理性、连贯性等方面的评估。

五、自回归语言模型的实际应用案例

OpenAI 的 GPT 系列模型在文本生成、问答系统等方面表现出色。
Google 的 Transformer 模型在机器翻译任务中取得了显著成果。

六、推理流程

对输入的文本进行编码，将其转换为模型可理解的输入格式。
根据选定的解码策略（如贪心搜索、束搜索等），基于前文预测下一个单词。
重复步骤 2，逐步生成完整的文本序列。

七、操作流程

加载所需的库和模块：

import mindspore
from mindnlp.transformers import GPT2Tokenizer, GPT2LMHeadModel

初始化分词器和模型：

tokenizer = GPT2Tokenizer.from_pretrained("iiBcai/gpt2", mirror='modelscope')
model = GPT2LMHeadModel.from_pretrained("iiBcai/gpt2", pad_token_id=tokenizer.eos_token_id, mirror='modelscope')

对输入文本进行编码：

input_ids = tokenizer.encode('I enjoy walking with my cute dog', return_tensors='ms')

选择不同的解码策略进行文本生成，如：
- 贪心搜索：

greedy_output = model.generate(input_ids, max_length=50)

- 束搜索：

beam_output = model.generate(input_ids, max_length=50, num_beams=5, early_stopping=True)

- 随机采样：

sample_output = model.generate(input_ids, do_sample=True, max_length=50, top_k=0)

- 温度调整采样：

sample_output = model.generate(input_ids, do_sample=True, max_length=50, top_k=0, temperature=0.7)

- TopK 采样：

sample_output = model.generate(input_ids, do_sample=True, max_length=50, top_k=50)

- Top-P 采样：

sample_output = model.generate(input_ids, do_sample=True, max_length=50, top_p=0.92, top_k=0)

- top_k_top_p 采样：

sample_outputs = model.generate(input_ids, do_sample=True, max_length=50, top_k=5, top_p=0.95, num_return_sequences=3)

八、函数及其参数、功能、例句

GPT2Tokenizer.from_pretrained(pretrained_model_name_or_path, mirror)
- 参数：
  - pretrained_model_name_or_path：预训练模型的名称或路径。
  - mirror：模型的镜像源。
- 功能：从指定的预训练模型加载分词器。
- 例句：tokenizer = GPT2Tokenizer.from_pretrained("iiBcai/gpt2", mirror='modelscope')
GPT2LMHeadModel.from_pretrained(pretrained_model_name_or_path, pad_token_id, mirror)
- 参数：
  - pretrained_model_name_or_path：预训练模型的名称或路径。
  - pad_token_id：填充标记的 ID。
  - mirror：模型的镜像源。
- 功能：从指定的预训练模型加载语言模型。
- 例句：model = GPT2LMHeadModel.from_pretrained("iiBcai/gpt2", pad_token_id=tokenizer.eos_token_id, mirror='modelscope')
model.generate(input_ids, **kwargs)
- 参数：
  - input_ids：输入的编码序列。
  - max_length：生成文本的最大长度。
  - num_beams：束搜索的束宽。
  - do_sample：是否进行采样。
  - top_k：TopK 采样中的 K 值。
  - top_p：Top-P 采样中的概率阈值。
  - temperature：采样时的温度。
  - num_return_sequences：返回的生成序列数量。
- 功能：根据输入和给定的参数生成文本。
- 例句：greedy_output = model.generate(input_ids, max_length=50)