中安OCR文字识别

           什么是OCR识别技术?

  • OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。
  • 可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据, 通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。
  • 在档案领域OCR技术使档案扫描成果达到了全文可识别,将档案数字化发展提升了到了一个新的阶段,是原本扫描出来的图片变得更容易进行检索,为数字档案馆的数据查询提供了技术支持,是档案数字化发展中必不可少的一环。
  •  
  • 北京中安OCR文字识别系统
  • 1、支持识别TIF、PNG、BMP、JPG格式图片,PDF文件;

    2、版面分析:横排文本、竖排文本、图像、表格版面,将识别结果最大程度还原到识别原件的内容;包括表格、图像的格式还原,段落的格式还原;

    3、支持中文简体,中文繁体,英文,日文、韩文,俄文,德文,法文,意大利文;(备注:后续可升级支持:藏文识别、维吾尔文识别、维文识别、哈萨克文识别、阿拉伯文识别、柯尔克孜文识别等);

    4、支持对图片进行,滤红,去下划线,倾斜矫正,自动旋正;

    5、支持对内存中的图像进行识别;OCR算法中为了保障识别率本身就包括图像输入、预处理、二值化、噪声去除、段落处理、字符切割、字符识别等处理;

    6、识别300DPI 宋体字扫描文档 99.8%的识别率,700毫秒/A4;(跟页面复杂程度有关);

    7、支持结果导出为可编辑的:XML、双层PDF、TXT、RTF格式(WORD文本编辑)、XLS格式(EXCEL表格编辑);

    8、提供可靠、方便集成的OCR SDK开发包;

    9、集成开发接口最全:C、C++、VB、VC、JAVA、DELPHI;

    1、支持Windows操作系统;

    2、支持Linux操作系统:(仅支持中文、英文识别、输出TXT、双层PDF结果)

转载于:https://www.cnblogs.com/wangjiarui666/p/11275913.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值