业务背景
目前,华为公司在海外设有4大供应中心,海关报关单全球一年有35w份左右(其中中国进口5w份,出口15w份,及香港进出口10w份,其它子公司5w份左右)。现在的单据处理方式还停留在通过人工方式将单据内容手动录入到系统中,人工录入的方式除了效率低以外,还存在员工疏忽或者疲劳导致的误操作。如何快速、准确的处理如此数量庞大的单据成为了供应链的一大诉求。
问题描述
海关报关单据是单据中较为常见的一种,它是指在进出口海关时,需要对商品进行描述的报关单,一般各国海关部门会提供图像扫描件,各公司拿到扫描件后需要入库保存。
随着近几年深度学习的发展,文字识别算法的性能也得到很大的提升。海关单据识别是文字识别重要应用场景,它是指通过机器学习和图像识别技术实现单据内容的自动采集,代替人工手动输入的处理方式。然而,相对于普通的文字识别,海关单据识别主要存在以下几个难点问题:
l 单据图像质量差:海关报关扫描件单据的图像质量往往很差,包括很多干扰虚线、倾斜、暗光、曝光、扭曲以及很多噪声点等。
2 识别精度要求高:由于涉及公司产品的出口,因此业务部门对单据关键数字部分如税率、金额等部分要求识别准确度100%。
3 单据内容复杂:单据中存在大量不清晰中文、小数点、近似英文数字、特殊符号、连接词等内容,其识别难度很大,容易被漏识别或误识别。
4 单据模板多样:不同国家单据模板不一致,如巴西海关完全是文本格