Datawhale NLP课程 Task7

最新推荐文章于 2024-09-12 21:19:09 发布

wangruohann

最新推荐文章于 2024-09-12 21:19:09 发布

阅读量149

点赞数 1

分类专栏：机器学习文章标签：神经网络自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangruohan1995/article/details/120005549

版权

机器学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

机器问答模型

加载数据集

和前面一样，使用函数load_dataset和load_metric来下载数据并得到需要的评测指标。

Preprocessing the training data

在将数据喂入模型之前，我们需要对数据进行预处理。预处理的工具叫Tokenizer。Tokenizer首先对输入进行tokenize，然后将tokens转化为预模型中需要对应的token ID，再转化为模型需要的输入格式。
tokenizer既可以对单个文本进行预处理，也可以对一对文本进行预处理，tokenizer预处理后得到的数据满足预训练模型输入格式。

Fine-tuning微调模型

目前，我们已经预处理好了训练/微调需要的数据，现在我们下载预训练的模型。由于我们要做的是机器问答任务，于是我们使用这个类AutoModelForQuestionAnswering。和tokenizer相似，model也是使用from_pretrained方法进行加载。

Evaluation评估

模型的输出是一个像dict的数据结构，包含了loss（因为提供了label，所有有loss），answer start和end的logits。我们在输出预测结果的时候不需要看loss，直接看logits就好了。每个feature里的每个token都会有一个logit。预测answer最简单的方法就是选择start的logits里最大的下标最为answer其实位置，end的logits里最大下标作为answer的结束位置。

Reference

https://github.com/datawhalechina/Learn-NLP-with-Transformers

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale NLP课程 Task7

机器问答模型加载数据集和前面一样，使用函数load_dataset和load_metric来下载数据并得到需要的评测指标。Preprocessing the training data在将数据喂入模型之前，我们需要对数据进行预处理。预处理的工具叫Tokenizer。Tokenizer首先对输入进行tokenize，然后将tokens转化为预模型中需要对应的token ID，再转化为模型需要的输入格式。tokenizer既可以对单个文本进行预处理，也可以对一对文本进行预处理，tokenizer预处理
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。