音频开发工具包LEADTOOLS教程:如何在eDiscovery应用程序使用?

LEADTOOLs技术交流群现已开通,QQ搜索群号:731259648加入!

下载EADTOOLS Document Imaging Suite SDK

LEADTOOLS Document Imaging SDKs拥有广泛的成像技术,完全适用于任何eDiscovery应用程序。最简单的单一服务专家,端到端的商业ECM,以及介于两者之间的一切,都能找到在其应用中添加世界级成像技术所需的一切。

就像EDRM作为一个一般的指南和过程,其步骤可以跳过或重新审视一样,下面概述的成像技术也不是一套强制性的功能。在大多数情况下,这些技术的顺序遵循企业级ECM的典型使用流程,但可以修改和重组,以符合任何开发团队的目标和创造力。

扫描

一个ECM和eDiscovery应用程序最关键的元素之一就是将纸质文件数字化的能力。没有什么能比扫描更有效地获得高质量的纸质文件的数字副本了。即使这是一个公司为法庭做的全部准备,由于简化了电子文件的运输和共享,扫描也能大量节省时间和资金。一个U盘就可以取代成百上千磅的文件,从一个办公室运到另一个办公室,然后再运到法庭上。

LEADTOOLS包括一些高级的类,可以非常容易地从任何带有TWAIN驱动程序或SANE后端的扫描仪中获取图像。请看下面的片段,它提示用户选择一个TWAIN源,然后将获取的图像加载到查看器中。

private void GetImageFromTwainSource()  {   _twainSession.SelectSource(string.Empty);   _twainSession.AcquirePage += new EventHandler<TwainAcquirePageEventArgs>(   twainSession_AcquirePage);   _twainSession.Acquire(TwainUserInterfaceFlags.Show);  }  private void twainSession_AcquirePage(object sender, TwainAcquirePageEventArgs e)  {   imageViewer.Image = e.Image;  }

文件清理和预处理

在考虑一个成像SDK时,另一个非常重要的功能是其清理扫描图像的能力。清理图像有两个主要的好处,每一个都对整个电子取证过程有巨大的涓滴影响

首先,可能是最明显的,就是文件本身更容易阅读。这对人眼来说是好事,但对电脑来说更是好事。小写字母L、大写字母L和数字1之间只有几个像素的差距。人眼仍然可以阅读带有删除线的文字,或者由纸张上的折痕造成的线条,但即使是最好的OCR引擎也会返回乱码。

第二,是存储空间。许多压缩算法通过比较相邻的像素来完成其工作。这对于构成大多数扫描文件的黑白图像来说尤其如此。执行图像清理功能,去除灰尘斑点、孔洞、线条、边框等,对单一颜色组成的块的运行长度和大小有深远影响,允许非常高的压缩率,高达92%以上的脏图像的压缩尺寸。

截图_54

图2:使用LEADTOOLS清洁的脏图像。两者均使用CCITT G4压缩,但清晰的图像只有12kb,而146kb

光学字符识别

光学字符识别是任何想要加强电子取证游戏的公司的必备工具。虽然扫描和清理图像可以完成工作并涵盖法律基础,但OCR提供了一个竞争优势,是进入许多其他技术的主要垫脚石。

以前的静态图像在转换为PDF、Microsoft Word或任何其他可搜索的文本格式时可以变得生动。能够搜索数字存储文件的内容是eDiscovery中的一项重要资产,特别是在处理、审查和分析阶段。LEADTOOLS可以创建图像覆盖文本的PDF,这在eDiscovery中非常有用,因为该格式在文本层上保留了原始图像,使其既可搜索,又与原始图像几乎没有变化。即使TIFF仍然是ECM中的首选文件格式,OCR也可以为这些静态图像注入元数据,在需要时可以进行搜索或编制索引以方便参考。

LEADTOOLS使OCR变得异常简单。将磁盘上的源文件转换为可搜索的PDF,只需三行代码即可完成

IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD, false);  ocrEngine.Startup(null, null, null, null);  ocrEngine.AutoRecognizeManager.Run(@"C:∖InputFile.tif", @"C:∖OutputFile.pdf", DocumentFormat.Pdf, null, null);

形式

表格识别是OCR的一个专门实现,它被精细地调整为从文件中提取特定的信息,而不是捕捉整个文件。一个组织可能有各种各样的表格,从就业时提交的税表到发给客户的发票和账单。就其本质而言,表格有很多重复的信息,也许唯一相关的数据是由申请人、客户、雇员等填写的。因此,在ECM中对这些表格进行归档的最有效和最有用的方法是从这些字段中提取数据,并在数据库中建立索引或将其保存为元数据。

LEADTOOLS能够处理表格的分类和处理。在分类时,LEADTOOLS会将传入的文件与主模板库(即空白的、未填写的表格版本)进行比较。然后,一旦发现匹配,它将执行区域性OCR,从填写的表格中提取数据。

截图_55

图3:使用LEADTOOLS Forms Recognition显示提取的字段

PDF格式

Adobe可携式文件格式是迄今为止最流行的文件存储格式,而且有充分的理由。PDF易于阅读,可搜索,充满元数据,并且可以使用注释和标记。它的使用是如此普遍,以至于任何由于需要某种阅读器或插件而对能够加载文件的担忧在很大程度上是没有意义的。综上所述,除了前面提到的通过OCR初步创建PDF之外,为什么eDiscovery应用程序开发者应该使用LEADTOOLS呢?

LEADTOOLS包括一个完整的PDF SDK,它能完成的任务远远超过通过OCR创建一个可搜索的PDF。在eDiscovery过程中,可搜索的文本可能是PDF的最大优势,但不幸的是,该功能通常只限于查看器的应用。在有数千份文件需要分析的情况下,打开每个文件既乏味又容易出错。LEADTOOLS允许开发者解析PDF文件结构中的文本、元数据、注释、超链接等,使其有可能在一小部分时间内搜索整个文件夹或磁盘驱动器中的PDF文件以获取相关的ESI。

文档转换器和文档查看器

文件转换是电子发现过程中一个非常普遍的需求,因为每个案件都是不同的,每个客户和诉讼律师都会达成各种共享文件的条款。一个ECM可能会将所有文件存储为PDF格式,但商定的生产格式可能是DOC。

在电子发现过程中,文件转换是一个非常普遍的需求,因为每个案件都是不同的,每个客户和诉讼律师都会达成各种共享文件的条款。一个ECM可能把所有的东西都存储为PDF,但商定的生产格式可能是DOC。

LEADTOOLS包括一个文档转换器库,它可以在各种文档格式之间进行转换,包括PDF、PDF/A、DOC/DOCX、XLS/XLSX和PPT/PPTX,而不需要OCR。这种独特的区别对电子发现来说是一个巨大的好处,因为它满足了保存的要求,同时也简化了处理、审查、分析和生产。文件转换器还可以接受150多种非文件格式,如TIFF、JPEG、PNG和BMP,并使用OCR将这些图像转换为PDF图像文本,使其成为一个完美的、程序员友好的文件规范化工具。

与文档转换器密切相关的是文档查看器。从表面上看,文档查看器可用于.NET和JavaScript,实现了像Acrobat Professional这样的丰富的PDF查看应用程序所包含的许多功能:搜索和选择文本,跟踪书签,添加和编辑注释,以及高质量的、基于矢量的缩放,以便在任何比例系数下平滑渲染。当文档查看器与文档转换器结合时,它才真正与众不同。它们一起提供即时的文档规范化,可以查看、搜索和注释150多种文档和图像格式。基于云的存储和查看在许多法庭上的接受度越来越高,而LEADTOOLS JavaScript Document Viewer是一个完美的选择,它可以查看几乎所有原生格式的文档,并具有与基于文本的PDF相同的功能。

截图_56

图4:.NET应用程序中的LEADTOOLS Document Viewer,显示页面缩略图,注释和可搜索文本。

注释和标记

注释和标记可以显示在EDRM的许多阶段。注释存在于图像或文档顶部的一层中,可以为文档注入其他信息,并鼓励协作和交流。便签,箭头和突出显示可以引起人们对文档重要部分的注意。

法律行业最重要的注释可能是贝茨邮票,修订和加密。贝茨邮票在法庭上有很长的历史,可以依次对纸质文件进行身份识别。数字ESI没什么不同,并且LEADTOOLS批注使导入文档到ECM或转移到用于生产的新存储磁盘中时,可以轻松地在文档上覆盖连续的数字。修订使用黑色矩形掩盖了不应在法庭上泄露的敏感信息。带有注释的数字修订是有益的,因为它不需要对原始ESI进行任何更改。甚至可以使用密码撤消注释注释,从而根据用户的访问层提供不同数量的信息。加密对象的作用类似于编辑,

截图_56

图5:“ LEADTOOLS Bates印章属性”对话框

虚拟打印机

在某些情况下,ESI难以处理,因为它以仅在旧版应用程序或定制开发的系统中可用的格式保存。值得庆幸的是,绝大多数应用程序都具有某种形式的打印功能,但是许多法律团队并未利用此功能来发挥其优势。虚拟打印(也称为打印到文件的驱动程序)是一种经常被忽略的解决方案,它有助于防止打印到纸张的麻烦,然后使用扫描仪将其导入可接受的电子格式。

LEADTOOLS虚拟打印机可通过捕获任何应用程序中的打印作业并将其转换为LEADTOOLS支持的格式(包括可搜索的PDF,DOC和TIFF)来提供独特的全面解决方案。虚拟打印机还支持添加注释,从而允许开发人员通过将文档归一化为适当的ESI并在整个过程中加盖戳记来创建可同时解决多个目标的工作流。


结论

对于软件开发人员而言,电子数据展示是一个巨大的市场,在法律程序的任何时候都充满了机会。大小企业都有不同的要求,从预防和组织措施,发现和分析ESI,从书面形式创建ESI一直到在法庭上陈述其案件。LEADTOOLS Document Imaging SDK凭借对扫描,文档清理,OCR,表单识别,PDF,文档转换和查看,注释和虚拟打印的出色支持,可以满足法律行业的软件开发人员经常需要实施的所有要求。

LEADTOOLS凭借其用于文档,医学,多媒体和光栅成像的全面工具包家族,提供了令人难以置信的价值。有关LEAD Technologies如何对应用程序进行映像处理并提高ROI的更多信息,请载免费评估版

*****************************************************************************************

LEADTOOLs技术交流群现已开通,QQ搜索群号:731259648二维码即可加入!

 

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值