• 博客(48)
  • 收藏
  • 关注

原创 不固定版式文档的OCR模型自主开发流程及技术应用实例

目前,一种更具效率、可用性、灵活性的OCR模型开发方式,正在被越来越多的企业所采用:依托外部厂商开发的文字识别训练平台,自主开发OCR模型。由于这些文字识别训练平台内置成熟的算法模型,企业不需要组建专业的算法团队,即可自行完成模型的创建、训练、部署全流程开发工作流。合合信息基于在智能文字识别领域深耕16年的深度学习算法能力与实训经验,推出了文字识别训练平台,为有OCR自主定制开发需求的企业提供低代码、自动化的一站式OCR开发平台。

2023-02-02 17:34:52 144

原创 别忘记我:通过局部-全局内容建模进行文本擦除方法

该论文针对文本擦除中存在的复杂背景修复的问题,提出了CTRNet,它利用局部和全局的语义建模提升模型的背景还原能力,它设计了Low-level Contextual Guidance(LCG)和High-level Contextual Guidance(HCG)去挖掘不同的语义表征,然后通过Local-Global Content Modeling(LGCM)进行局部与全局的特征建模,从而提升文本擦除的能力。

2023-01-18 11:46:52 444 1

原创 智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

本文简要介绍ACM MM 2022录用论文“Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild”的主要工作。该论文针对现有的矫正方法只能在紧密裁剪的文档图像上获得较为理想的矫正效果这一不足,提出了一个新的矫正方法Marior。Marior采用渐进式的矫正方式来逐步提高矫正性能。具体而言:先利用分割结果进行环境边缘去除获得初步矫正结果,再通过预测偏移场迭代式地优化该初步结果。

2023-01-12 15:33:31 289

原创 合合信息扫描全能王“照片高清修复”功能上线,3秒还原老照片

老照片里品“年味”,合合信息扫描全能王“高清修复”旧时记忆

2023-01-10 14:27:13 196

原创 领域首创!合合信息与上海大学联合开启贵州原生态古彝文典籍数字化项目

由于古彝文尚未取得预留的Unicode编码区段,数字化工程还处于起步阶段,所以在印刷出版时,需由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,形成目前常见的“四行体”彝汉文对译,过程。邵文苑提到,古彝文文献和口传史诗中记录了很多南诏古国、夜郎古国、巴蜀古国的奇闻异事,在理解典籍的基础上,可以通过电影、音乐剧、浸入式戏剧等形式进行创作,或打造“元宇宙”世界、IP主题乐园,让更多人跨越语种的隔阂,感受更多元的。15%的变体字,原稿中只会更多;

2022-12-23 17:16:42 980

原创 文字检测识别技术的未来发展趋势和面临的选择

一个可行的解决方案可能是探索能够捕获不同语言的文本实例的常见模式的组合表示,并使用文本合成引擎生成的不同语言的文本示例来训练检测和识别模型。

2022-12-16 07:30:00 315

原创 商务部研究院信用所、启信宝联合发布《中国商务信用发展指数报告(2022)》

基于区域发展呈梯度分布现状,《报告》提出,要在数字技术创新应用浪潮中捕捉机会,推进信用信息深度开发利用,例如积极使用全国商务分领域信用信息相关平台或与平台对接,推动国家、省、市、区/县、镇/乡、街道/村庄六级网络条块联动;《报告》对中国商务信用的发展提出了相关对策建议。针对各省市间商务信用发展水平区域差异较大的问题,应加快创新发展步伐,积极促进各区域招商引资、信用经济,增进中国商务信用向市场主体活力、投融资用信更深层次发展,质量效益更上一层,并注重加快整合促进中小微市场主体高质量发展,尤其关注其生存环境。

2022-12-01 14:12:55 238

原创 2022全球数商大会顺利举行,合合信息旗下启信宝斩获年度数据产品奖

合合信息副总经理、董事陈青山受邀出席论坛,就工业数据如何通过场景知识融合,赋能生产制造、供应链等环节“增质提效”进行分享。大会还举办了“2022首届数据交易节”颁奖典礼,合合信息旗下启信宝数据产品“企势数达”斩获年度数据产品奖。

2022-11-28 11:27:49 1174

原创 3分钟登记流程3秒搞定,合合信息与腾讯云联合推出合规降本新方案

通过COS对象存储的生命周期管理能力,帮助大数据冷热分层,降低存储成本,达到“降本增效”的目的。该方案整合了合合信息在文字识别、文档管理等场景的技术和经验,以及腾讯云在云服务和海外市场服务的积累与优势,能够高效精准解决文档中各类语言、各类版式带来的审核效率问题,推动行业实现国际业务数字化、自动化的合规经营。

2022-11-21 10:30:03 595

原创 可防离职员工冒用身份,合合信息名片全能王与钉钉用数字名片打造安全“围栏”

合合信息旗下名片全能王是一款智能名片及人脉管理APP,基于合合信息的智能文字识别技术,可将复杂场景下的纸质名片转变为结构化的数字名片,也可在线创建、分发个人版及企业版数字名片,为用户提供人脉智能管理等服务。有不少用户反馈,自己工作的时候用钉钉,日常交流则使用其他软件,因为不同的平台上接收的名片无法统一整合,每次只能一条条存到通讯录里,而名片全能王与钉钉的合作节省了不少平台跳转、信息录入的时间。

2022-11-15 10:38:21 588

原创 CRAFTS:端对端的场景文本检测器

场景文本检测器由文本检测和识别模块组成。许多研究已经将这些模块统一为一个端到端可训练的模型,以获得更好的性能。一个典型的体系结构将检测和识别模块放置到单独的分支中,通常使用RoIpooling来让这些分支共享一个视觉特征。然而,当采用使用基于注意力的解码器和表示字符区域空间信息的检测器时,仍然有机会在模块之间建立更互补的连接。这是可能的,因为这两个模块共享一个共同的子任务,即查找字符区域的位置。

2022-11-15 10:36:54 100

原创 ABCNet:端到端的可训练框架的原理应用及优势对比

ABCNet(Adaptive Bezier Curve Network)是一个端到端的可训练框架,用于识别任意形状的场景文本。直观的pipeline如图所示。采用了单点无锚卷积神经网络作为检测框架。移除锚定箱可以简化我们任务的检测。

2022-11-07 16:30:17 113

原创 FOTS:端到端的文本检测与识别方法的原理应用与优势

基于深度学习的可端到端训练的自然场景检测与识别算法(text spotting)由于其简洁高效且统一的结构,逐渐取代了过去将检测与识别分阶段训练然后拼接在一起的方案,成为自然场景文本检测与识别的主流研究方向之一。端到端自然场景文本检测和识别网络一般都共享特征提取分支,根据提取的特征进行文本检测,然后将检测得到的文本特征送入识别模块进行文本识别。

2022-11-04 15:07:23 1103

原创 【文本检测与识别白皮书-3.2】第二节:基于注意力机制和CTC的场景文本识别方法的对比

本节内容给出基于CTC和基于注意力机制的两种场景文本识别方法,并给出各自的优势与局限性

2022-11-03 16:04:42 235 2

原创 【文本检测与识别白皮书-3.2】第一节:基于分割的场景文本识别方法

基于分割的识别算法是自然场景文本识别算法的一个重要分支(Wang 等,2012;Bissacco 等,2013;Jaderberg 等,2014),通常包括3 个步骤:图像预处理、单字符分割和单字符识别。基于分割的自然场景文本识别算法通常需要定位出输入文本图像中包含的每个字符的所在位置,通过单字符识别器识别出每一个字符,然后将所有的字符组合成字符串序列,得到最终的识别结果。

2022-10-31 14:12:41 272

原创 去屏幕纹用合合信息的这个技术,比操作PS软件省7个步骤

用相机拍摄电子屏幕,当感光元件像素的空间频率与影像中条纹的空间频率接近时,就可能产生摩尔纹。摩尔纹有呈条纹状、网状、波纹状等多种形态,颜色各异,纹理的走向和弧度也有差别。去除摩尔纹成为行业中颇具挑战性的任务,也是合合信息在智能文字识别领域里创新技术应用之一。

2022-10-28 14:05:16 227

原创 10分钟完成模型开发!合合信息智能文字识别服务平台亮相1024程序员节

近期,CSDN(中国开发者网络)第三届“1024程序员节”(简称“大会”)顺利举办,来自Linaro等开源组织的领导者和微软、腾讯、华为、合合信息等企业的技术专家接连登陆主论坛重磅活动《全体大会:2022技术英雄会》,与观众云端话科技。

2022-10-26 15:04:41 991

原创 【文本检测与识别-白皮书-3.1】第四节:算法模型 2

SegLink提出一种新的文本检测策略,由一个简单和高效的CNN模型实现。在水平方向、面向方向和多语言的文本数据集上的优越性能很好地证明了SegLink是准确、快速和灵活的。在未来,将进一步探索其在检测弯曲文本等变形文本方面的潜力。此外,研究人员还想将SegLink扩展到一个端到端识别系统。

2022-10-24 16:59:21 641

原创 【文本检测与识别白皮书-3.1】第三节:算法模型

R-CNN、Fast R-CNN、Faster R-CNN2014年论文《Rich feature hierarchies for accurate object detection and semantic segmentation Tech report》提出R-CNN模型,即Regions with CNN features。这篇论文可以算是将CNN方法应用到目标检测问题上的开山之作。。。

2022-10-21 11:27:28 361

原创 【文本检测与识别白皮书-3.1】第二节:基于分割的场景文本检测方法

基于分割的自然场景文本检测方法主要是借鉴传统的文本检测方法的思想,先通过卷积神经网络检测出基本的文本组件,然后通过一些后处理的方式将文本组件聚集成一个完整的文本实例。此类方法可以进一步划分为像素级别的方法(基于分割的方法)和文本片段级别的方法。

2022-10-19 16:28:55 405

原创 【文本检测与识别白皮书-3.1】第一节:常用的文本检测与识别方法

考虑到将Faster R-CNN 用于文本检测时,矩形锚点框与文本的形状相差过大,会导致区域生成网络(region proposal network,RPN)在生成文本候选区域时效率不高,鲁棒性也不强,Zhong 等人(2019)因此借鉴了DenseBox(Huang 等,2015) 的思想,提出了不需要锚点框的区域生成网络(anchor-free region proposal network, AF-RPN)。基于深度学习的自然场景文本检测方法在检测精度和泛化性能上远优于传统方法,逐渐成为了主流。

2022-10-17 16:18:12 401

原创 千秋华夏 壮丽河山 国庆节快乐~

祝各位国庆节快乐~

2022-10-01 07:00:00 81

原创 智能文字识别技术-弯曲矫正概述

我们也希望这个变换是空间上平滑且连续的,这样能保证变换遵循物理模型,存在连续可逆的变换,使得我们的变换在数据合成等方面有更广泛的应用。和相似度损失函数类似,正则项在网络里也有多种实现方式,一种是通过对位移场直接进行空间梯度惩罚,一种则是通过对速度场进行约束后再通过积分层得到最终形变场,还有一种则是在训练过程中通过循环损失函数来实现......

2022-09-30 11:47:06 916

原创 【技术白皮书】第二章:文本检测与识别技术发展历程

这些新的识别系统的出现,标志着印刷体汉字识别技术的应用领域得到了广阔的扩展。总共有11个单位进行了14次印刷体汉字识别的成果鉴定,这些系统对样张识别能达到高指标:可以识别宋体、仿宋体、黑体、楷体,识别的字数最多可达6763个,字号从3号到5号,识别率高达99.5%以上,识别速度在286微机条件下能够达到10~14字/秒,但对真实文本识别率大大下降,这是由于以上系统对印刷体文本形状变化(如文本模糊、笔划粘连、断笔、黑白不均、纸质质量差、油墨反透等等)的适应性和抗干扰性比较差造成的......

2022-09-27 10:14:51 193

原创 高精度的“文件转换excel”背后藏着这些解题思路!

B端领域中,作为合合信息智能文字识别引擎中的重要模块,表格识别技术已落地在保险、银行、证券等行业中,应用于合同、银行流水、物流单据识别等多个场景。合合信息无线表识别采用序列模型、规则匹配等方案,通过自研模型直接预测表格的逻辑结构,再得到表格的物理结构,在保证表格区域内容的完整性的同时,检测准确率较传统方法显著提升。在16年领域深耕中,合合信息智能文字识别技术覆盖了图片、PDF格式文档中多种类的表格识别需求,包括有线表,三线表,无线表等,并且支持合并单元格、多表格并存等复杂情况的识别。

2022-09-21 14:52:35 189

原创 【技术白皮书】第一章:基于深度学习的文本检测与识别的技术背景

OCR全称Optical Character Recognition,即光学字符识别,最早在1929年被德国科学家Tausheck提出,定义为将印刷体的字符从纸质文档中识别出来。现在的OCR,狭义上指对输入扫描文档图像进行分析处理,识别出图像中文本信息。而随着OCR技术的日益发展,人们已不再仅仅满足于文档或书本上的文本,开始将目标转移到现实世界场景中的文本,这被称为场景文本识别(Scene Text Recognition,STR)。

2022-09-05 15:56:22 905

原创 能“读懂”古文还可反诈骗, 合合信息智能文字识别“黑科技”亮相2022WAIC

挑战"大师级"阅读理解,合合信息智能文字识别技术亮相2022世界人工智能大会“克曰穆朕文且師華父悤譲氒心宁静于猷淑哲氒”要怎么断句?世界人工智能大会期间,一篇镌刻在西周青铜鼎面的钟鼎文难倒了不少参观者,最先“解题”成功的是合合信息推出的智能文字识别AI(人工智能)系统。在无人工干预的状态下,钟鼎文从内凹状态被拉平,并被转译成简体字,原本连在一起的文字经过“AI断句”功能自动处理后被正确区分开来。现场观众纷纷评价:这届AI实在太“卷”,竟然能读懂古文。今年是世界人工智能大会...

2022-09-01 16:55:23 475

原创 合合信息CCIG2022技术分享:文档图像质量增强是OCR进阶的重要研究方向

本次大会由中国科学技术协会指导,中国图象图形学学会主办,四川大学承办,电子科技大学协办,汇聚了潘云鹤院士、郑南宁院士、高文院士、戴琼海院士、王耀南院士、乔红院士等百余位国内知名学者,以及来自百度、华为、OPPO、合合信息等企业的技术专家,共话图像图形学术研究与技术创新趋势,共谋行业新发展,参会人数突破1500人。大会采用主旨报告与主题/特色论坛的方式进行。其中,在主旨报告环节里,中国工程院院士、浙江大学教授潘云鹤院士介绍了视觉知识与视觉智能的相关工作,阐释了人工智能发展的过程中,视觉智能起到的重要的作用。

2022-08-24 14:37:18 575

原创 【技术白皮书】第五章:信息抽取技术的未来发展趋势和面临的挑战

论文《 Survey on Deep Learning for Named Entity Recognition》总结了NER技术面临的挑战和未来发展方向。随着建模语言的进步和实际应用的需求,NER会得到研究人员更多的关注。另一方面,NER通常被视为下游应用程序的预处理组件。这意味着特定的NER任务由下游应用程序的需求定义,例如,命名实体的类型以及是否需要检测嵌套实体。以下是NER研究的以下进一步探索方向......

2022-08-22 09:26:36 380

原创 合合信息受邀参与中国计算机学会计算机视觉专委会年度学术研讨会

合合信息受邀参与中国计算机学会计算机视觉专委会年度学术研讨会

2022-08-18 15:18:08 567

原创 【技术白皮书】第四章:信息抽取技术产业应用现状及案例(下)

信息抽取技术已发展多年,相关产业也日趋成熟,下面是几种主要的信息抽取产业应用......

2022-08-17 12:07:35 1749

原创 【技术白皮书】第四章:信息抽取技术产业应用现状及案例(上)

信息抽取技术已发展多年,相关产业也日趋成熟,下面是几种主要的信息抽取产业应用:在企业签订合同确立合作的业务流程中,合同比对是必不可少的一个环节。合同在文本确定前,往往经历了反复修改、版本迭代,或者存在电子版与纸质版之间的增减差异。在签订合同时,需要确保用印合同与审核通过的合同文本一致,关键信息齐备,以避免范本使用、文本修改、阴阳合同、函证造假等风险。合合信息推出TextIn合同机器人,基于STR识别和NLP算法,开发出合同关键信息识别与抽取和合同比对两大核心能力,将合同文本进行自动识别与精准智能比对....

2022-08-15 16:50:19 1455

原创 文本信息常用的事件抽取模型

论文解决的是EE问题,提出PLMEE模型,模型由事件抽取模型和生成模型两部分组成,这两个模块都使用到了预训练语言模型来引入更丰富的知识。针对角色重叠问题,论文的抽取方法根据角色分离了元素预测,针对每个元素使用一组二分类器,预测元素的角色标签。并根据不同角色对该类型事件的重要性,对损失函数的权重进行了重分配。......

2022-07-29 17:06:08 739

原创 文本信息事件信息抽取的方法

事件抽取(EE)是信息抽取研究中的一个重要而富有挑战性的课题。事件作为一种特殊的信息形式,是指在特定时间、特定地点发生的涉及一个或多个参与者的特定事件,通常可以描述为状态的变化。事件提取任务旨在将此类事件信息从非结构化的纯文本中提取为结构化的形式,主要描述现实世界中事件发生的“谁、何时、何地、什么、为什么”和“如何”。在应用方面,该任务便于人们检索事件信息,分析人们的行为,促进信息检索、智能问答、知识图谱构建等实际应用。......

2022-07-29 16:44:02 825

原创 文本信息常用的关系抽取模型

利用具有多实例学习的分段卷积神经网络(PCNN)进行远程监督关系提取,在PCNN的方法中,无需复杂的NLP预处理即可自动学习特征。PCNN还成功地在所提出的网络中设计了一个分段最大池层来捕获结构信息,并结合多实例学习来解决错误标签问题。实验结果表明,与同类方法相比,该方法具有显著的改进。......

2022-07-29 15:27:22 290

原创 文本信息关系抽取的方法

由于传统机器学习的关系抽取方法选择的特征向量依赖于人工完成,也需要大量领域专业知识,而深度学习的关系抽取方法通过训练大量数据自动获得模型,不需要人工提取特征。

2022-07-29 11:49:48 357

原创 文本信息抽取模型介绍——实体抽取方法:NER模型(下)

将深度学习技术应用于NER有三个核心优势。首先,NER受益于非线性转换,它生成从输入到输出的非线性映射。与线性模型(如对数线性HMM和线性链CRF)相比,基于DL的模型能够通过非线性激活函数从数据中学习复杂的特征。第二,深度学习节省了设计NER特性的大量精力。传统的基于特征的方法需要大量的工程技能和领域专业知识。另一方面,基于DL的模型可以有效地从原始数据中自动学习有用的表示和底层因素。第三,通过梯度下降,可以在端到端的范式中训练深层神经NER模型。该特性使我们能够设计可能复杂的NER系统。......

2022-07-04 15:21:55 1589

原创 文字表格信息抽取模型介绍——实体抽取方法:NER模型(上)

导读:将深度学习技术应用于NER有三个核心优势。首先,NER受益于非线性转换,它生成从输入到输出的非线性映射。与线性模型(如对数线性HMM和线性链CRF)相比,基于DL的模型能够通过非线性激活函数从数据中学习复杂的特征。第二,深度学习节省了设计NER特性的大量精力。传统的基于特征的方法需要大量的工程技能和领域专业知识。另一方面,基于DL的模型可以有效地从原始数据中自动学习有用的表示和底层因素。第三,通过梯度下降,可以在端到端的范式中训练深层神经NER模型。该特性使我们能够设计可能复杂的NER系统。.....

2022-07-01 14:27:33 532

原创 【技术白皮书】第二章:OCR智能文字识别回顾——自然语言文本发展历程

从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期,这被看作是信息抽取技术的初始研究,它以两个长期的、研究性的自然语言处理项目为代表。

2022-06-16 11:42:26 336

原创 【技术白皮书】第一章:OCR智能文字识别新发展——深度学习的文本信息抽取

信息抽取是把原始数据中包含的信息进行结构化处理,变成表格一样的组织形式。

2022-06-15 15:17:24 428

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除