import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer
# 检查 CUDA 是否可用
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)
# 加载 GPT-2 模型和分词器
model_name = "gpt2"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
# 将模型移动到 GPU
model.to(device)
# 输入文本
input_text = "你是一个Prompt高级工程师,现在有这样一个Prompt框架:ICI0框架,是Instruction指令,\
即你希望AI执行的具体任务C是Context背景信息,即给AI更多背景信息引导模型做出更提盒需求的回复l是Input Data输入数据,\
即告知模型需要处理的数据O是OutputIndicator输出引导,即告知模型我们要输出的类型或风格现在要你写一个符合ICI0框架的Prompt的实例,要求输出中文,例子要具体详细"
# 将输入文本转换为 tokens
inputs = tokenizer(input_text, return_tensors="pt")
inputs = {key: value.to(device) for key, value in inputs.items()}
# 生成文本
output = model.generate(
inputs["input_ids"],
max_length=1024, # 生成足够长的文本以提取多个句子
num_return_sequences=1,
num_beams=5,
no_repeat_ngram_size=2,
early_stopping=True
)
# 解码生成的文本
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
# 指定每个句子的长度(以单词数为单位)
desired_sentence_length = 20 # 例如,每个句子10个单词
# 分割文本为句子
sentences = generated_text.split('. ')
# 函数:截取指定长度的句子
def get_sentence_by_length(sentence, desired_length):
words = sentence.split() # 将句子按单词分割
if len(words) >= desired_length:
return ' '.join(words[:desired_length]) + '.' # 截取前 desired_length 个单词,并加上句号
else:
return None # 如果句子长度不够,返回 None
# 获取符合长度要求的句子
final_sentences = [get_sentence_by_length(sentence, desired_sentence_length) for sentence in sentences]
final_sentences = [sentence for sentence in final_sentences if sentence] # 过滤掉 None 的结果
# 打印生成的句子
for i, sentence in enumerate(final_sentences):
print(f"Generated Sentence {i+1}: {sentence}")