基于Prompt的MLM文本分类-v2

最新推荐文章于 2024-09-03 07:00:00 发布

SUN_SU3

最新推荐文章于 2024-09-03 07:00:00 发布

阅读量2k

点赞数 6

分类专栏：模型 NLP 文章标签：自然语言处理

本文链接：https://blog.csdn.net/u013546508/article/details/115399638

版权

本文研究了基于Prompt的MLM（Masked Language Modeling）文本分类方法，通过自动寻找Prompt并调整多种参数，如LSTM层数和学习率。实验结果显示，即使在小样本情况下，该方法相比直接使用BERT进行分类仍能取得一定优势，提供了一种新的文本分类策略。

摘要由CSDN通过智能技术生成

自动寻找Prompt

实验版本好多参数可调

import os
import torch
import logging
import datasets
import transformers
import numpy as np
import torch.nn as nn
from sklearn import metrics
from datasets import Dataset
from torch.nn import CrossEntropyLoss
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_recall_fscore_support
from transformers import Trainer, TrainingArguments, BertTokenizer, BertForMaskedLM
from transformers.modeling_outputs import MaskedLMOutput

os.environ['CUDA_VISIBLE_DEVICES'] = '1'
transformers.set_seed(1)
logging.basicConfig(level=logging.INFO)
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
prp_len = 2 #prompt token长度

# 通过LSTM寻找prompt的embedding
class MyModel(BertForMaskedLM):
    def __init__(self, config):
        super().__init__(config)
        self.dim = 384
        self.emb = nn.Embedding(prp_len+1, self.dim)
        self.bi_lstm = nn.LSTM(self.dim, self.dim, 2, bidirectional=True)
        self.b_emb = self.get_input_embeddings()
        self.line1 = nn.Linear(768, 768)
        self.line2 = nn.Linear(768, 768)
        self.line3 = nn.Linear(768, 768)
        self.relu = nn.ReLU()
        
    def forward(
        self,
        input_ids=None,  # [CLS] e(p) e(p) [MASK] e(input_ids)
        attention_mask=None,
        token_type_ids=None,
        position_ids=None,
        head_mask=None,
        inputs_embeds=None,
        encoder_hidden_states=None,
        encoder_attention_mask=None,
        labels=None,   # [CLS] -100 -100 label e(input_ids)
        output_attentions=None,
        output_hidden_states=None,
        return_dict=None,
    ):
        
        p = self

最低0.47元/天解锁文章

SUN_SU3

关注

6
点赞
踩
19

收藏

觉得还不错? 一键收藏
19
评论
基于Prompt的MLM文本分类-v2

自动寻找Prompt实验版本好多参数可调import osimport torchimport loggingimport datasetsimport transformersimport numpy as npimport torch.nn as nnfrom sklearn import metricsfrom datasets import Datasetfrom torch.nn import CrossEntropyLossfrom sklearn.model_selec
复制链接

扫一扫

专栏目录