基于GPT2实现考公申论文章生成

最新推荐文章于 2023-06-08 15:15:06 发布

GAYUAI

最新推荐文章于 2023-06-08 15:15:06 发布

阅读量1.5w

点赞数 33

文章标签：文字生成 GPT2

本文链接：https://blog.csdn.net/qq_39086406/article/details/103425337

版权

近几年来，考公的人数越来越多，而申论作为考公非常重要的一部分，也是另很多人头痛的一部分。很多人在考试之前都会背一些优秀范文或句段，以便在考试时派上用场。这里我用GPT2预训练很多篇申论范文，使之能在某个话题的提示下自动申成一片范文或句段。话不多说，直接上代码。

数据预处理

这里我找了500篇申论范文，不是很多，当然也可以多找点，最好是各类话题都有，越多越好。

造字典

将所有文章中的字，符号提取出来，去重后存入一个txt文档中
代码实现

import os
DIR_PATH = r"novels"
VOCAB_FILE = r"Vocab.txt"
words = set()
x=0
for i, filename in enumerate(os.listdir(DIR_PATH)):
    x=x+1
    f_path = os.path.join(DIR_PATH, filename)
    print(f_path)
    with open(f_path, "r+", encoding="utf-8") as f:
        w = f.read(1)
        while w:

            if w == '\n' or w == '\r' or w == ' ':
                # words.add('[SEP]')
                pass
            else:
                words.add(w)
            w = f.read(1)
print(x)
with open(VOCAB_FILE, "w+", encoding="utf-8") as f:
    f.write("[START] [SEQ] [UNK] [PAD] [END] ")
    f.write(" ".join(words))
    f.flush()

对文章进行编码

利用字典对文章进行编码，如字典中第12个字是“我”，则在原文中的“我”就用数字11代替，然后保存每篇文章的编码。
代码实现：

import os
SRC_DIR = r"novels"
DST_DIR = r"encoded_novels"
VOCAB_FILE = "Vocab.txt"
if not os.path.exists(DST_DIR):
    os.makedirs(DST_DIR)
with open(VOCAB_FILE, "r+", encoding="utf-8") as f:
    tokens = f.read().split()
count = 0
for i, filename in enumerate(os.listdir(SRC_DIR)):
    f_path = os.path.join(SRC_DIR, filename)
    print(f_path)
    with open(f_path, "r+", encoding="utf-8") as f:
        dst = ["0"]
        w = f.read(1)
        while w:
            if w == '\n' or w == '\r' or w == '\t' or ord(w) == 12288:
                dst.append("1")
            elif w == ' ':
                dst.append("3")
            else:
                try:
                    dst.append(str(tokens.index(w)))
                except:
                    dst.append("2")
            w = f.read(1)
    count+=1
    with open(os.path.join(DST_DIR, "{}.txt".format(count)), "w+", encoding="utf-8") as df:
        df.write(" ".join(dst))
print(count)

网络模型

我搭建的是带多头注意力的GPT模型，由于电脑GPU显存不大，所以头数设的12，模块数设的6，字的维数为768，最多可生成500字

# config文件
block_num = 6
head_num = 12
embed_dim = 768
vocab_num = 3012
pos_num =500
multi=4
stride=1
device = "cuda:0"

import torch
from torch import nn
import config as cfg
class Attention(nn.Module):
    def __init__(self, isMask=True):
        super().__init__()
        self.dk = (cfg.embed_dim // cfg.head_num) ** 0.5
        self.isMask = isMask
        self.c_attn = nn.Linear(cfg.embed_dim, cfg.embed_dim * 3)
        self.attn_drop = nn.Dropout(0.1)
        self.resi_drop = nn.Dropout(0.1)
        self.c_proj = nn.Linear(cfg.embed_dim, cfg.embed_dim)
        if self.isMask:
            # self.register_buffer("mask", torch.tril(torch.ones(cfg.pos_num, cfg.pos_num)))
                self.mask = torch.tril(torch.ones(cfg.pos_num, cfg.pos_num)).cuda()
    def forward(self, x):
        x = self.c_attn(x) # x形状(N,S,V)，N代表多少个句子，S代表多少个词，V代表每个词的维度
        x = x.reshape(*x.shape[:-1], cfg.head_num, -1)  # (N,S,V)——>(N,S,12,768/12*3)
        x = x.transpose(-2, -3)  # (N,S,12,768/12*3)——>(N,12,,S,768/12*3)
        q, k, v = x.chunk(3, dim=-1)
        w = (q @ k.transpose(-1, -2)) / self.dk  # (N,12,S,64)@(N,12,64,S)=(N,12,S,S)
        # if self.isMask:
        # mask=(self.mask if self.isMask else 1)
        mask=torch.tril(torch.ones(w.size(-2), w.size(-1))).cuda()
        w = w * mask - (1 - mask) * 1e5
        w = torch.softmax(w, dim=-1)
        w = self.attn_drop(w)
        a = w @ v  # (N,12,S,S)@(N,12,S,64)-->(N,12,S,64)
        a = a.transpose(-2, -3)  # (N,12,S,64)-->(N,S,12,64)
        a = a.reshape(*a.shape[:-2], cfg.embed_dim)  # (N,S,12,64)-->(N,S,768)
        h = self.c_proj(a)
        h = self.resi_drop(h)
        return h
class Block(nn.Module):
    def __init__(self, isMask=True):
        super().__init__()
        self.layer_normal_1 = nn.LayerNorm(cfg.embed_dim)
        self.attention = Attention(isMask)
        self.layer_normal_2 = nn.LayerNorm(cfg.embed_dim)
        self.proj = nn.Sequential(
            nn.Linear(cfg.embed_dim, cfg.multi * cfg.embed_dim),
            nn.LeakyReLU(),
            nn.Linear(cfg.multi * cfg.embed_dim, cfg.embed_dim),
        )
        self.dropout = nn.Dropout(0.1)
    def forward(self, x):
        h = self.layer_normal_1(x)
        a = self.attention(h)
        a = a + x  # 加一个残差
        a = self.layer_normal_2(a)
        h = self.proj(a)
        h = self.dropout(h)
        y = h + a  # 加一个残差
        return y
class GPT2(nn.Module):
    def __init__(self):
        super().__init__()
        self.vocab_embed = nn.Embedding(cfg.vocab_num, cfg.embed_dim) # 定义一个字典
        self.pos_embed = nn.Embedding(cfg.pos_num, cfg.embed_dim)   # 定义一个位置编码
        # self.type_embed = nn.Embedding(cfg.type_num, cfg.embed_dim)   # 定义一个类型编码
        self.blocks = []
        for _ in range(cfg.block_num):
            self.blocks.append(Block())
        self.drop = nn.Dropout(0.1)
        self.sequential = nn.Sequential(*self.blocks)
        self.output_layer = nn.Linear(cfg.embed_dim, cfg.vocab_num, bias=False)
    def forward(self, x, p):
        e = self.vocab_embed(x)  # 对输入进行词向量编码
        p = self.pos_embed(p)    # 对输入进行位置编码
        # t = self.type_embed(t)   # 对输入进行类型编码
        h = self.drop(e + p)
        h = self.sequential(h)
        return self.output_layer(h)

网络训练

生成训练数据

import torch, os
from torch.utils.data import Dataset
import config as cfg
class MyDataset(Dataset):
    def __init__(self, dir):
        self.dataset = []
        for filename in os.listdir(dir):
            with open(os.path.join(dir, filename), "r+") as f:
                ws = [int(x) for x in f.readline().split()]
                ws_len = len(ws)
                start = 0
                while ws_len - start > cfg.pos_num + 1:
                    self.dataset.append(ws[start:start + cfg.pos_num + 1])
                    start += cfg.stride
                else:
                    if ws_len > cfg.pos_num + 1:
                        self.dataset.append(ws[ws_len - cfg.pos_num - 1:])
    def __len__(self):
        return len(self.dataset)
    def __getitem__(self, index):
        data = torch.tensor(self.dataset[index])
        return data[0:-1], data[1:]

训练


from module import *
from dataset import *
import torch, os
from torch import  optim
from torch.utils.data import DataLoader
from torch.nn import  functional as F
# def weight_init(m):
#     if isinstance(m, nn.Linear):
#         nn.init.xavier_normal_(m.weight)
#         if m.bias is not None:
#             nn.init.constant_(m.bias, 0)
save_path=r"网络参数"
class Trainer:
    def __init__(self):
        self.net = GPT2()
        self.weight_file = os.path.join(save_path, "gpt2_k.pt")
        if os.path.exists(self.weight_file):
            self.net.load_state_dict(torch.load(self.weight_file))
        # else:
        #     self.net.apply(weight_init)

        self.net.to(torch.device(cfg.device))

        self.opt = optim.Adam(self.net.parameters(), lr=0.0001)
    def train(self):
        myDataset = MyDataset(r"encoded_novels")
        print(len(myDataset))
        dataloader = DataLoader(myDataset, batch_size=4, shuffle=True)
        epoch=0
        while True:
            epoch=epoch+1
            sum_loss = 0
            for i, (x, y) in enumerate(dataloader):
                x, y = x.to(torch.device(cfg.device)), y.to(torch.device(cfg.device))
                p = torch.arange(0, x.shape[1])[None, :].repeat(x.shape[0], 1).to(torch.device(cfg.device))
                # print(p)
                _y = self.net(x, p).reshape(-1, cfg.vocab_num)
                y = y.reshape(-1)
                loss = F.cross_entropy(_y, y)
                self.opt.zero_grad()
                loss.backward()
                self.opt.step()
                print(loss.cpu().detach().item())
                sum_loss += loss.cpu().detach().item()
                if i % 1000 == 0 and i > 0:
                    torch.save(self.net.state_dict(), self.weight_file)
            print("第{0}轮训练完毕".format(epoch))
            print("轮的平均损失为{0}".format(sum_loss / len(dataloader)))
            torch.save(self.net.state_dict(), self.weight_file)
            print("参数保存成功")

测试

from module import *
def transer(x):              # 索引到字的换算
    VOCAB_FILE = "Vocab.txt"
    with open(VOCAB_FILE, "r+", encoding="utf-8") as f:
        tokens = f.read().split()
    y=x[0]
    for i in y:
        print(tokens[i], end=" ")
def Transfer(str):          # 字到索引的换算
    VOCAB_FILE = "Vocab.txt"
    with open(VOCAB_FILE, "r+", encoding="utf-8") as f:
        tokens = f.read().split()
    idx=tokens.index(str)
    return idx
if __name__ == '__main__':
    gpt = GPT2()
    gpt.to(torch.device(cfg.device))
    gpt.eval()
    gpt.load_state_dict(torch.load(r"网络参数\gpt2_k.pt"))

    os = []
    x = torch.tensor([[Transfer("依"),Transfer("法"),Transfer("治"),Transfer("国")]]).cuda()  # 给定一个开始词
    p = torch.tensor([[0,1,2,3]]).cuda()  # 给定一个起始位置
    l=x.size()[1]
    for i in range(400):
        y = gpt(x, p)
        y = y[:, -1:]
        v, y = torch.topk(y, 8, dim=-1)

        v, y = v.reshape(-1, 8), y.reshape(-1, 8)
        v = torch.multinomial(torch.softmax(v, dim=-1), 1)
        y = torch.gather(y, -1, v)

        x = torch.cat([x, y], dim=1)
        p = torch.tensor([range(i + l + 1)]).cuda()
    print(transer(x))

比如，输入“人工智能”，则会生成如下片段：

人工智能，网上购物，物联网，各种新兴技术层出不穷，各种创新思想不断迸发，国家政策环境需求都为创新提供了丰富的土壤，这也是最坏的时代，自主品牌创新能力薄弱，山寨产品盛行，核心技术被外方意志很大程度上削减了我国的竞争力，究其原因，一方面是企业缺乏竞争意识，创新意识目光短浅所致，而另一方面在于人才的流失，由于学术界浮躁的氛围，以及体制的不完善等，许多科研人员面临工资低，没有项目的窘境，为了改善环境，降低生存压力，转而流向其他的领域，因此想要中国品牌走出国门，提升竞争力，创新是关键。打造中国品牌提升国家竞争力，融入民族精神是重点。中国品牌之所以被称为中国品牌，关键在于其拥有独特的魅力，不同于其他国家，必须有中国的特色，必须有中国的文化，与文化紧密结合，故宫博物院的文创产品，就是将这一融合发挥到极致的典范，将文物蕴含的文化内容融入到产品设计当中，设计出具有中国特色的独一无二的文创产品，不仅能够吸引大量的游客，更传承了中国文化之道，不仅打造了品牌，更将这一品牌销往国外，可见，打造中国品牌，还必须要将中国文化结合其中，方能够让中国品牌脱颖而出，与众不同，方能体现中国竞争力。

GAYUAI

关注

33
点赞
踩
100

收藏

觉得还不错? 一键收藏
5
评论
基于GPT2实现考公申论文章生成

近几年来，考公的人数越来越多，而申论作为考公非常重要的一部分，也是另很多人头痛的一部分。很多人在考试之前都会背一些优秀范文或句段，以便在考试时派上用场。这里我用GPT2预训练很多篇申论范文，使之能在某个话题的提示下自动申成一片范文或句段。话不多说，直接上代码。数据预处理这里我找了500篇申论范文，不是很多，当然也可以多找点，最好是各类话题都有，越多越好。造字典将所有文章中的字，符号提取出来...
复制链接

扫一扫