layoutlm 系列ser 同一检测框的文本实体类别不同情况处理

blackswanjj

已于 2024-06-26 10:48:32 修改

阅读量243

点赞数 4

文章标签：人工智能深度学习自然语言处理

于 2024-06-12 13:49:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gjj19901005/article/details/139624162

版权

一、同一检测框不同实体类别预测失败原因

1. 训练与推理的时候输入不一致

layoutlm 系列的tokenizer分词的时候，对中文都有一个起始token，训练的时候人工标注，同一个检测框的key-value是被划分为不同的实体类别，分别分词，都带有起始token送入网络的。推理的时候按检测框维度分词再送入推理的，这个时候只有一个起始token，两个词之间没有起始token送入推理。

2. 后处理

原来后处理是按检测框维度，取检测框中所有token的类别，按众数决定整个检测框的实体类别。这样一个文本检测框中无法出现多个类别。

二、解决办法讨论

1. 针对训练推理输入不一致，在训练推理过程中，手动去除分词后的起始token，使得在训练推理过程中输入保持一致。

2. 后处理过程中一个检测框中按照token的BIO序列去分开不同的实体及实体类别。

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

blackswanjj CSDN认证博客专家 CSDN认证企业博客

码龄15年

4: 原创

83万+: 周排名

18万+: 总排名

3815: 访问

: 等级

65: 积分

12: 粉丝

13: 获赞

16: 评论

15: 收藏

私信

关注

热门文章

最新评论

unilm layoutlmv2/layoutxlm RE 模型转 onnx
blackswanjj: 可以拆开两个模型导出，前面的backbone和后面的redecoder，是redecoder里有一个batchsize的for循环静态导出的时候就是固定的，buildrelation可以在外面做掉不在模型forward里做
unilm layoutlmv2/layoutxlm RE 模型转 onnx
DYF-AI: 貌似是计算rel_classifier时只能一个batch一个batch地输入
unilm layoutlmv2/layoutxlm RE 模型转 onnx
DYF-AI: 这种情况是否需要拆开两个模型导出？
unilm layoutlmv2/layoutxlm RE 模型转 onnx
DYF-AI: 模型代码中有个for循环,还是说这个for循环是指build_relation时的for循环？麻烦指教一下哈，感谢
unilm layoutlmv2/layoutxlm RE 模型转 onnx
DYF-AI: 因为模型代码中有个for循环,这里是指你重写bilinear 前向代码有for循环吗？是这个原因导致batchsize只能为1吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。