2.6 实战演练之文本相似度（上）

笨笨sg

已于 2024-10-10 17:07:18 修改

阅读量446

点赞数 4

分类专栏：手把手带你实战transformers 文章标签： transformers 文本相似度文本匹配

于 2024-10-10 17:07:02 首次发布

本文链接：https://blog.csdn.net/a131529/article/details/142824276

版权

手把手带你实战transformers 专栏收录该内容

33 篇文章 3 订阅

订阅专栏

1 文本匹配任务简介

2 基于Transfromers的解决方案

4.7 创建TrainingArguments

1 文本匹配任务简介

文本相似度

2 基于Transfromers的解决方案

本质是一个二分类，可以用于解决A和B之间是否相似的问题

现在我们思考一下，如果要判断A和集合{B,C,D}中哪个句子更类似怎么办？若仍然使用二分类方法，假如我们得到A和B、C都是相似的，但这样子的后果就是无法判断B与C哪个与A更相似。因此我们可以使用回归方法，得到A和集合{B,C,D}中每个句子的相似性得分，然后取最大值即可。

3 数据集

选用simCLUE / train_pair_1w.json作为数据集

4 基于交互策略的实战流程

4.1 导包

4.2 加载数据集

4.3 划分数据集

4.4 数据集预处理

这里要对sentence1和sentence2共同进行处理

方式一：使用二分类方法，label要由字符串类型强制转换为int类型

import torch

tokenizer = AutoTokenizer.from_pretrained("hfl/chinese-macbert-base")

def process_function(examples):
    tokenized_examples = tokenizer(examples["sentence1"], examples["sentence2"], max_length=128, truncation=True)
    tokenized_examples["labels"] = [int(label) for label in examples["label"]]
    return tokenized_examples

tokenized_datasets = datasets.map(process_function, batched=True, remove_columns=datasets["train"].column_names)
tokenized_datasets

方式二：使用回归方法，label要由字符串类型强制转换为float类型，因为最后得到的要是一个浮点数表示分数

import torch

tokenizer = AutoTokenizer.from_pretrained("hfl/chinese-macbert-base")

def process_function(examples):
    tokenized_examples = tokenizer(examples["sentence1"], examples["sentence2"], max_length=128, truncation=True)
    tokenized_examples["labels"] = [float(label) for label in examples["label"]]
    return tokenized_examples

tokenized_datasets = datasets.map(process_function, batched=True, remove_columns=datasets["train"].column_names)
tokenized_datasets