小黑NER探索:valid函数

最新推荐文章于 2023-05-31 09:45:14 发布

爱喝喜茶爱吃烤冷面的小黑黑

最新推荐文章于 2023-05-31 09:45:14 发布

阅读量375

点赞数 1

分类专栏：小黑ner起飞探索笔记文章标签：自然语言处理 pytorch 深度学习

本文链接：https://blog.csdn.net/qq_37418807/article/details/123182607

版权

小黑ner起飞探索笔记专栏收录该内容

6 篇文章 1 订阅

订阅专栏

from estimate import Precision,Recall,F1_score
import sys
import torch
import time
from tqdm import tqdm
from torch.utils.data import TensorDataset,DataLoader
sys.path.append('..')
from model.BERT_BiLSTM_CRF import BERT_BiLSTM_CRF
from config import Config
from utils import read_corpus,load_vocab
device = 'cuda'
config = Config()
vocab = load_vocab(config.vocab)
label_dic = load_vocab(config.label_file)
tagset_size = len(label_dic)
dev_data = read_corpus(config.dev_file,max_length = config.max_length,label_dic = label_dic,vocab = vocab)
dev_ids = torch.LongTensor([temp.input_id for temp in dev_data])
dev_masks = torch.LongTensor([temp.input_mask for temp in dev_data])
dev_tags = torch.LongTensor([temp.label_id for temp in dev_data])
dev_dataset = TensorDataset(dev_ids,dev_masks,dev_tags)
dev_loader = DataLoader(dev_dataset,shuffle = True,batch_size = config.batch_size)
model = BERT_BiLSTM_CRF(tagset_size,
                        config.bert_embedding,
                        config.rnn_hidden,
                        config.rnn_layer,
                        config.dropout,
                        config.pretrain_model_name,
                        device
                       ).to(device)
def valid(model,dataloader):
    model.eval()
    device = model.device
    pre_output = []
    true_output = []
    epoch_start = time.time()
    running_loss = 0.0
    with torch.no_grad():
        tqdm_batch_iterator = tqdm(dataloader)
        for _,batch in enumerate(tqdm_batch_iterator):
            # inputs:[batch_size,max_len]
            # masks:[batch_size,max_len]
            # tags:[batch_size,max_len]
            inputs,masks,tags = batch
            real_length = torch.sum(masks,dim = 1)
            tmp = []
            i = 0
            for line in tags.numpy().tolist():
                tmp.append(line[:real_length[i]])
                i += 1
            true_output.append(tmp)
            
            inputs = inputs.to(device)
            masks = masks.byte().to(device)
            tags = tags.to(device)
            # feats:[batch_size,max_len,num_labels]
            feats = model(inputs,masks)
            loss = model.loss(feats,tags,masks)
            # batch_size个path
            out_path = model.predict(feats,masks)
            pre_output.append(out_path)
            
            running_loss += loss.item()
    epoch_time = time.time() - epoch_start
    epoch_loss = running_loss / len(dataloader)
    # pre_output,true_output:[num_epochs,batch_size] 个 path
    precision = Precision(pre_output,true_output)
    recall = Recall(pre_output,true_output)
    f1_score = F1_score(precision,recall)
    estimator = (precision,recall,f1_score)
    return epoch_time,epoch_loss,estimator
best_path = '../result/checkpoints/RoBERTa_result/RoBERTa_best.pth.tar'
checkpoint = torch.load(best_path)
model.load_state_dict(checkpoint['model'])
valid(model,dev_loader)