有关于huggingface tokenizer的text_pair

最新推荐文章于 2023-05-05 10:05:04 发布

Reza.

最新推荐文章于 2023-05-05 10:05:04 发布

阅读量1.3k

点赞数 3

分类专栏：深度学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_43301333/article/details/128543407

版权

深度学习专栏收录该内容

83 篇文章 23 订阅

订阅专栏

tokenizer有一个名为text pair的参数，这个参数在做NLI任务的时候很有用，因为输入不是一个single sentence，而是sentence pair。

但是这个参数的类型让人非常confused，而且同时还有一个text参数，让人不知道传入的sentence pair到底应该遵循一个什么格式，如下图所示：

在这里插入图片描述
正确的用法如下：

也就是说，如果只是单个sentence pair，直接传入两个str；

但如果要batchfy，那应该传入一个List【List【str】】。这个list长度为batch_size，里面的每一个样本就是一个sentence pair，用list存储，而且只用传这一个参数，不用text和text_pair都传入。

另外一个问题是token_type_ids。由于常规的BERT预训练时使用NSP任务，所以，如果用BERT的tokenizer去做sentence pair classification，它会返回token_type_ids；而像Roberta这种，就不需要token_type_ids，其tokenizer自然也就不会返回token_type_ids。

所以直接用类似下面这种写法就不会出错（直接把tokenize之后的dict，传给model就行）：

inputs = tokenizer(*(sen1,sen2), truncation=True)
#print(inputs)
inputs = dict([(k,torch.tensor(v).unsqueeze(0).to(f"cuda:{args.gpu}")) for k,v in inputs.items()])
outputs = model(**inputs)

参考：
huggingface issue-#7674

Reza.

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
4
评论
有关于huggingface tokenizer的text_pair

由于常规的BERT预训练时使用NSP任务，所以，如果用BERT的tokenizer去做sentence pair classification，它会返回。这个list长度为batch_size，里面的每一个样本就是一个sentence pair，用list存储，而且只用传这一个参数，不用。的参数，这个参数在做NLI任务的时候很有用，因为输入不是一个single sentence，而是。但是这个参数的类型让人非常confused，而且同时还有一个。也就是说，如果只是单个sentence pair，直接传入。
复制链接

扫一扫