基于Prompt的MLM文本分类 bert4keras实现

HGlyh

已于 2022-08-08 15:48:55 修改

阅读量2.2k

点赞数

分类专栏： bert4keras python，自然语言处理文章标签：自然语言处理深度学习

于 2021-10-17 15:58:39 首次发布

本文链接：https://blog.csdn.net/HGlyh/article/details/120810515

版权

BERT4Keras Prompt MLM 文本分类填空任务

关键词由CSDN通过智能技术生成

python，自然语言处理同时被 2 个专栏收录

13 篇文章 1 订阅

订阅专栏

bert4keras

6 篇文章 3 订阅

订阅专栏

本文主要介绍使用Prompt的MLM文本分类 bert4keras的代码实现，用以丰富bert4keras框架的例子关于prompt的原理的文章网上有很多优秀的文章可以自行百度。

github地址

hgliyuhao/Prompt4Classification (github.com)

transformers,torch 实现的版本可以参考

基于Prompt的MLM文本分类_u013546508的博客-CSDN博客

数据介绍

剧烈运动后咯血,是怎么了?	剧烈运动后为什么会咯血？	1
剧烈运动后咯血,是怎么了?	剧烈运动后咯血，应该怎么处理？	0

每条数据是包含两句话和一个标签，如果标签为1证明两句话意思相同为0则证明意思不同

所以是一个分类任务

模型设计

使用mlm模型,将分类任务转换成一个填空任务,再根据填空的结果决定分类结果。

根据任务和数据特点设计Prompt：两句话意思【mask】同。

所以对应模型的输入是两句话意思【mask】同：text1 ；text2

对应的label 如果标签为1 label 为‘相’，标签为0 label 为 ‘不’

因为在预测的时候是使用生成模型，为了确定mask结果的任务，所以Prompt要位于句子开头

代码细节

由于需要使用mlm 要在引入模型的时候加入with_mlm=True

model = build_transformer_model(
    config_path,
    checkpoint_path,
    with_mlm=True,
    keep_tokens=keep_tokens,  # 只保留keep_tokens中的字，精简原字表
)

下面重点说一下输入输出格式

class data_generator(DataGenerator):

    def __iter__(self, random=False):

        """单条样本格式为
            输入：[CLS]两句话意思[MASK]同,text1,text2[SEP]
            输出：'相'或者'不'
        """
        idxs = list(range(len(self.data)))
        if random:
            np.random.shuffle(idxs)
        batch_token_ids, batch_segment_ids, batch_a_token_ids = [], [], []
        
        for i in idxs:

            data = self.data[i]
            text = "两句话意思相同"
            text1 = data[0]
            text2 = data[1]
            label = data[2]

            final_text = text + ':' + text1 + ',' + text2            
            token_ids, segment_ids = tokenizer.encode(final_text, maxlen=maxlen)
            
            # mask掉'相'字
            token_ids[6] = tokenizer._token_mask_id

            if label == 0:
                a_token_ids, _ = tokenizer.encode('不')
            else:
                a_token_ids, _ = tokenizer.encode('相')   

            batch_token_ids.append(token_ids)
            batch_segment_ids.append(segment_ids)
            batch_a_token_ids.append(a_token_ids[1:])

            if len(batch_token_ids) == self.batch_size or i == idxs[-1]:
                batch_token_ids = sequence_padding(batch_token_ids)
                batch_segment_ids = sequence_padding(batch_segment_ids)
                batch_a_token_ids = sequence_padding(
                    batch_a_token_ids, 1
                )
                yield [batch_token_ids, batch_segment_ids], batch_a_token_ids
                batch_token_ids, batch_segment_ids, batch_a_token_ids = [], [], []

token_ids[6] = tokenizer._token_mask_id 是将 "两句话意思相同" 转换成"两句话意思【mask】同"

batch_a_token_ids.append(a_token_ids[1:]) 这里(a_token_ids[1:] 是为了将cls 去掉

batch_a_token_ids = sequence_padding(batch_a_token_ids, 1) 这里是设置生成文本的长度，因为我们这个任务只需要预测结果为‘相’或者为‘不’所以长度设置为1