机器学习：提取问题答案

uncle_ll

于 2023-07-29 10:26:52 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/uncle_ll/article/details/131990791

版权

机器学习专栏收录该内容

71 篇文章

订阅专栏

文章介绍了在使用BERT模型时，由于self-attention的计算复杂度为O(n^2)，对于超过512个token的文本需采用分窗策略。以答案为中心设定固定长度窗口，并允许重叠以防止信息丢失。建议使用中文预训练模型，并通过线性学习率衰减、自动混合精度以及Gradientaccumulation来优化训练过程，尤其是在GPU内存有限的情况下。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

模型BERT

在这里插入图片描述

任务：提取问题和答案

在这里插入图片描述

问题的起始位置和结束位置。

数据集

在这里插入图片描述
数据集 DRCD+ODSQA

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
先分词，然后tokenize

文章长度是不同的，bert的token的长度有限制，一般是512， self-attention的计算量是 $O(n^2)$ ,所以无法将长的整篇文章送进去处理。

Train

在这里插入图片描述
以正确答案为中心，以固定长度的windows去找问题。关键字，答案一般在关键字附近，在答案的附近画一个window，越大越好。然后将这些片段进行tokenizer，再去训练。

在这里插入图片描述

Hints

在这里插入图片描述

Linear Learning rate decay

在这里插入图片描述
overlapping window，因为分割可能会看不到，重叠一些部分。修改doc stride参数。

在这里插入图片描述
正确答案不一定是在窗户正中心。

在这里插入图片描述
不同的预训练模型，建议使用中文预训练模型。

在这里插入图片描述

自动混合精度，有的时候不需要那么高的精度Float32，仅部分卡支持，以加速训练。

在这里插入图片描述
如果GPU内存不够的话，可以使用Gradient accumulation，累计参数一次更新。

在这里插入图片描述

Kaggle项目

在这里插入图片描述

在这里插入图片描述
套件：pip install transformers

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

uncle_ll 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。