报关单识别API 装箱单识别API 外贸发票识别API 申报要素识别API 报关单预录入

tiger.faship

已于 2024-06-12 18:51:22 修改

阅读量805

点赞数 11

文章标签：人工智能 python

于 2024-06-12 15:14:37 首次发布

本文链接：https://blog.csdn.net/u012181252/article/details/139627502

版权

报关员在录入报关资料到单一窗口的时候，常常面临数据繁多，录入效率低的问题。有些单据包含十几项甚至几十项商品，录入工作费时费力，让人不胜其烦。不少平台推出了所谓智能识别的功能，但是实际的效果确实差强人意，有些只能识别特定格式的文件，有些只能识别某几个字段，有些错误百出。究其主要原因是因为：

（1）不同公司制作的报关资料格式不一致。报关资料有新版的、老版的、导入模板的；申报要素有独立一页的，有在商品行里的；发票、装箱单、合同等，格式更是格式各样，没有统一标准；包含的表格经常有不完整的，列错位的等等。

（2）字段填写不规范，有英文、中文、缩写、代码、简称、错别字等。

（3）提供的文件类型繁多，有pdf、word、excel、图片、压缩包、eml等。

这些原因导致开发一套可以精确识别报关资料的程序难度颇高。由于这些文件包含了各种表格、格式不规则的图表，即使使用大语言模型也不能很精确的处理。

那么如何解决这一难题呢？我们团队收集整理了大量的报关资料文件形成了数十万条的数据集，并通过修改大语言模型结构使之能够适应把复杂布局的文件作为输入，然后以开源的大语言模型为基础，训练了专门用来识别报关资料的模型，取得了很好的效果，准确率97%以上，年识别量超过150万单，大大节省了人工录入报关资料的成本。

目前支持识别报关草单，发票，装箱单，申报要素等单据，支持的文件格式包含pdf、word、excel、图片、压缩包、eml。

识别的字段包括：境内发货人、生产销售单位、境外收货人、合同协议号、出境关别、运输方式编码、出境关别中文、运输方式、航次号、运输工具、提运单号、监管方式、征免性质、贸易国名称、运抵国、指运港、包装种类、离境口岸、件数、毛重（千克）、净重（千克）、运费、保费、杂费、成交方式、随附单证及编号、标记唛头及备注、备案号、商品编码、成交单位、成交数量、第一法定成交单位、第一法定成交数量、第二法定成交单位、第二法定成交数量、单价、总价、币制、原产国、最终目的国、境内货源地、征免、商品名称、申报要素。