如何用程序自动识别报关资料？

tiger.faship

已于 2024-06-12 17:23:48 修改

阅读量72

点赞数 1

文章标签： python pyqt

于 2023-09-24 17:59:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012181252/article/details/133245532

版权

报关资料涉及到文件类型很多，主要包括报关草单、发票、装箱单、合同、申报要素等。而且即使是同一单据，格式也是千变万化，多种多样，这种情况下用模板匹配肯定不会取得很好的效果，需要运用深度学习等方法才能精确的识别出里面的内容。

首先要对报关资料的每一页进行分类。因为客户提供的的报关资料，可能包含大量无用的文档，过滤这些文档，会大大提高后续的识别销量。我这里主要识别了报关草单，报关草单标体，发票，装箱单，申报要素，合同，其他类型。

下面就是要对页面里的内容进行提取。我采取的方法是对每个页面上字符进行标注，建立一个大概1万个样本的数据集。然后使用transformer对每个字符进行归类训练。这里为了取得最佳效果，我还对1万个样本做了增强，扩充到10万个左右。

接下来还要把不同页面解析出的内容合并在一起，有很多业务相关的逻辑和细节，这里就不展开了。

再接下来还要解析申报要素。申报要素的内容很多，不能通过归类解决，那就用generative model吧。用大语言模型试了一下效果还不错，只是不能给出结果的来源位置。或许后面再做一些匹配的处理也是能实现定位的。

最后还要对解析出的结果进行标准化处理。比如港口填了SH, 可以通过语义匹配标准的数据，要转换的字段很多。

整个项目还是挺麻烦的，包括数据的收集，标注，海关编码的更新，模型的不断调优。最终取得了不错的效果。有需要的同学可以直接下载客户端体验一下，

www.bgd.faship.cn

需要接口调用的小伙伴也可以联系我哦。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
如何用程序自动识别报关资料？

因为客户提供的的报关资料，可能包含大量无用的文档，过滤这些文档，会大大提高后续的识别销量。我这里主要识别了报关草单，报关草单标体，发票，装箱单，申报要素，合同，其他类型。我尝试过很多方法，比如大语言模型，虽然效果好，但是速度比较慢，有些页面包含几千个字符，对识别速度造成影响。而且即使是同一单据，格式也是千变万化，多种多样，这种情况下用模板匹配肯定不会取得很好的效果，需要运用深度学习等方法才能精确的识别出里面的内容。整个项目还是挺麻烦的，包括数据的收集，标注，海关编码的更新，模型的不断调优。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

tiger.faship 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。