Andorid-基于ML Kit和Tesseract实现OCR身份证识别

长亭外的少年

已于 2024-07-29 14:41:07 修改

阅读量1.6k

点赞数 28

分类专栏： Android 开发问题集锦文章标签： android ocr

于 2024-07-29 13:16:05 首次发布

本文链接：https://blog.csdn.net/weixin_37600397/article/details/140768735

版权

Android 开发问题集锦专栏收录该内容

24 篇文章

订阅专栏

基于ML Kit和Tesseract实现OCR身份证识别

1 OCR简介与原理

1.1 什么是OCR？

OCR（Optical Character Recognition，光学字符识别）是一种将扫描的文档或图片中的文字转换为可编辑文本的技术。它通过图像处理和模式识别技术，将图片中的文字信息提取出来，实现从纸质文档到电子文本的转换。

OCR技术已经在许多领域得到了广泛应用，例如文档数字化、文本数据采集、票据处理、身份证件识别等。其核心价值在于提高信息处理的效率和准确性，减少人工操作的时间和成本。

1.2 OCR的原理

1.2.1 OCR（光学字符识别）涉及以下关键步骤：

图像预处理：
- 灰度化：将彩色图像转换为灰度图像，减少数据量。
- 二值化：转换为黑白图像，突出文字部分。
- 噪声去除：清理杂点，提高图像清晰度。
文字区域检测：
- 定位文字：使用边缘检测和连通域分析等方法识别文字区域。
字符分割：
- 字符间距分析：将一串文字分割成单个字符。
- 字符形状分析：处理粘连字符。
字符识别：
- 模板匹配：对比字符和预先存储的字符样本。
- 特征提取：提取字符的边缘和曲线等特征。
- 机器学习模型：使用训练好的模型识别字符。
后处理：
- 拼写检查：检查并修正拼写错误。
- 语言模型校正：确保文本的语法和连贯性。

1.2.2 Tesseract OCR

Tesseract OCR 是一个支持多种语言和图像格式的开源光学字符识别（OCR）引擎。它包括命令行程序和用于开发人员的库（libtesseract），使用基于神经网络的OCR引擎进行行识别，并支持扩展以增加语言。详细使用说明和文档可以在其官方网站上找到。

主要组成部分：

图像预处理：使用Leptonica库进行灰度化、二值化和噪声去除。
文字区域检测：通过连通域分析和边缘检测识别文字区域。
字符分割：分析字符间距，分割成单个字符。
特征提取：从字符中提取轮廓、方向和纹理等特征。
模式识别：使用LSTM网络和预训练模型进行字符识别。
后处理：使用语言模型校正OCR结果，确保文本连贯性和正确性。

1.2.3 Google ML Kit Text Recognition

Google ML Kit Text Recognition 使用先进的机器学习技术，主要特点包括：

图像实时处理：利用设备的计算能力实时处理图像，提供即时反馈。
预训练模型：使用Google预训练的高精度深度学习模型。
离线与在线模式：支持在设备本地和通过Google云进行OCR处理。
多语言支持：自动检测和识别多种语言。
简易API：通过简单的API调用快速实现OCR功能。

总结：

Tesseract OCR：结合Leptonica库和LSTM网络进行字符识别和后处理。
Google ML Kit Text Recognition：依赖Google提供的预训练模型和ML Kit API，实现高精度的实时OCR处理。

这两个工具利用强大的图像处理和机器学习技术，为开发者提供高效的OCR解决方案。

2 三方OCR解决方案与开源库比较

2.1三方OCR解决方案

目前市场上有许多提供高效OCR能力的第三方平台，这些平台通常具备较高的识别效率和准确性，能够处理多种类型的文档和文字识别任务。

CamScanner OCR
- 高效识别：能够快速处理大量文档，识别速度快，准确率高。
- 多语言支持：支持多种语言和字体的识别，适用范围广。
- 用户友好：操作简便，适合个人用户和企业用户。
参考链接：CamScanner OCR
华为ML Kit
- 高度集成：与华为生态系统无缝集成，提供完整的技术支持。
- 高精度：利用深度学习技术，提供高精度的文字识别能力。
- 安全性：数据传输和处理过程中提供高安全性保障。
参考链接：华为ML Kit

2.2 使用三方解决方案的优缺点

优点：

高效：识别速度快，准确率高，适合需要快速处理大量文档的场景。
稳定：经过大规模商用验证，具有较高的稳定性和可靠性。
技术支持：通常提供完善的技术支持和文档，便于开发和集成。

缺点：

数据问题：数据安全和隐私问题是使用三方服务时需要重点考虑的，特别是涉及敏感信息的场景。在传输和存储过程中，需要确保数据的安全性和保密性。
费用问题：使用三方服务通常需要支付费用，随着使用量的增加，成本可能会较高。对于小规模应用，费用可能较低，但对于大规模应用，费用可能成为一个重要的考量因素。

2.3 开源OCR库

常见的开源OCR库包括Tesseract，作为一个开源项目，Tesseract拥有广泛的应用和较高的识别精度。

Tesseract OCR
- 免费：完全开源，可以自由使用，无需支付费用。
- 多语言支持：支持多种语言和字体的识别。
- 可定制：可以根据实际需求进行二次开发和定制，灵活性高。

2.4 使用开源库的优缺点

优点：

免费：开源库可以自由使用，无需支付费用，适合预算有限的项目。
可定制：可以根据实际需求进行二次开发和定制，灵活性高。
社区支持：拥有活跃的开发者社区，提供技术支持和更新。

缺点：

效率较低：识别速度和准确率相比三方解决方案可能会有所不足，特别是在处理大量文档时。
维护成本高：需要自行维护和更新，技术门槛较高。对于没有相关技术背景的团队，可能需要额外的学习和开发成本。

3. 工具调研与演示

3.1 zxing扫描库

在Github上找到了QrCodeScanner项目，它通过一定的优化，使得识别效率有所提升。我们可以参考这个库来进行图片扫描，提高识别效率。

参考项目链接: QrCodeScanner

3.2 Tesseract开源库演示

Tesseract OCR (https://github.com/tesseract-ocr/tesseract)

这是Tesseract OCR引擎的官方GitHub仓库，由Google维护。Tesseract是目前最准确的开源OCR系统之一，它最初由HP实验室开发，后来由Google接手继续开发和维护。Tesseract能够识别多种语言，并且具有高度的可配置性。这个仓库包含了Tesseract的核心源代码，适用于跨平台使用，包括Windows、Linux、macOS等。
Tess-two (https://github.com/rmtheis/tess-two)

Tess-two是由Robert Theis创建的一个Tesseract工具集的分支，旨在为Android平台提供Tesseract OCR图像处理库的支持。它提供了Java API来访问原生编译的Tesseract，使得开发者可以在Android应用中轻松地集成OCR功能。然而，该项目已经不再维护，建议使用其替代品。
Tesseract4Android (https://github.com/adaptech-cz/Tesseract4Android)

Tesseract4Android是Tess-two的一个分支，但它被重写以支持最新的Tesseract版本和Android Studio。这个项目由AdapTech CZ维护，使用CMake构建，并支持最新的Android Studio版本和Tesseract OCR引擎。它提供了两种变体：标准版（单线程）和OpenMP版（多线程），以适应不同的处理器架构和使用场景。Tesseract4Android是目前推荐用于Android平台的Tesseract OCR封装库。

总结：Tesseract OCR是核心OCR引擎；Tess-two曾作为Android平台的Tesseract工具集，但现在已停止维护；而Tesseract4Android是Tess-two的现代替代品，专门为Android平台提供了最新Tesseract版本的支持，并且仍在积极维护中。如果你想在Android应用中集成OCR功能，Tesseract4Android应该是首选的库。

集成使用

`build.gradle` 配置示例

在项目的 build.gradle 文件中添加 Tesseract4Android 的依赖项，如下所示：

implementation 'cz.adaptech.tesseract4android:tesseract4android:4.7.0'

Tesseract4Android 使用示例

首先，将 chi_sim.traineddata 放到项目的 assets 目录下。

模型下载地址

准备Tesseract所需的数据：

 // 为Tesserect复制(从assets中复制过去)所需的数据
    private void prepareTess() {
        try {
            // 获取外部文件目录中的'tessdata'文件夹路径
            File dir = mActivity.getExternalFilesDir(TESS_DATA);
            // 如果目录不存在，则创建该目录
            if (!dir.exists()) {
                if (!dir.mkdir()) {
                    // 如果目录创建失败，显示提示信息
                    Toast.makeText(mActivity.getApplicationContext(), "目录" + dir.getPath() + "没有创建成功", Toast.LENGTH_SHORT).show();
                }
            }
            // 从assets中复制必须的数据,构建语言数据外部存储目录文件的完整路径
            String pathToDataFile = dir + "/" + DATA_FILENAME;
            if (!(new File(pathToDataFile)).exists()) {
                // 打开assets目录中的语言数据文件
                InputStream in = mActivity.getAssets().open(DATA_FILENAME);
                OutputStream out = new FileOutputStream(pathToDataFile);
                // 定义缓冲区
                byte[] buff = new byte[1024];
                int len;
                // 循环读取文件内容并写入目标路径
                while ((len = in.read(buff)) > 0) {
                    out.write(buff, 0, len);
                }
                // 循环读取文件内容并写入目标路径
                in.close();
                out.close();
            }
        } catch (Exception e) {
            // 如果发生异常，记录错误信息
            Log.e(TAG, e.getMessage());
        }
    }

使用Tesseract4Android进行OCR识别：

private void recognizeText(Bitmap bitmap) {
    // 创建TessBaseAPI实例（这在内部创建本机Tesseract实例）
    TessBaseAPI tess = new TessBaseAPI();
    //给定的路径必须包含子目录“tessdata”，其中是“*.traineddata”语言文件, 路径必须可由应用程序直接读取
    String dataPath = mActivity.getExternalFilesDir("/").getPath() + "/";
    if (!tess.init(dataPath, "chi_sim")) {
        //初始化Tesseract时出错（数据路径错误/无法访问或语言文件不存在）
        //释放本机Tesseract实例
        tess.recycle();
        return;
    }
    //加载图像（文件路径、位图、像素…）
    //（在Tesseract生命周期内可以调用多次）
    tess.setImage(bitmap);
    String text = tess.getUTF8Text();
    tess.recycle();
    Log.d(TAG, "Recognized text: " + text);
}

3.3 ML Kit演示

1. ML Kit概述

ML Kit是Google提供的一个强大且易于使用的机器学习工具包，它允许开发者在移动应用中集成机器学习功能，而无需具备深厚的机器学习知识。ML Kit提供了多种预训练的模型，包括文本识别、面部检测、图像标签和语言翻译等。本文将重点介绍如何使用ML Kit的文本识别功能，特别是识别中文文本。

2. ML Kit集成步骤

要在Android项目中集成ML Kit，需要进行以下几个步骤：

2.1 配置项目

首先，确保您的项目使用的是最新版本的Gradle和Android插件。在build.gradle文件中，添加以下依赖项：

// 在项目级别的build.gradle文件中添加Google的Maven仓库
buildscript {
    repositories {
        google()
        mavenCentral()
    }
    dependencies {
        classpath 'com.android.tools.build:gradle:7.1.2' // 确保使用最新版本
    }
}

allprojects {
    repositories {
        google()
        mavenCentral()
    }
}

然后，在应用级别的build.gradle文件中添加ML Kit文本识别的依赖项：

// 在应用级别的build.gradle文件中添加ML Kit的依赖项
dependencies {
    implementation 'com.google.mlkit:text-recognition-chinese:16.0.0'
}

2.2 配置AndroidManifest.xml

确保在AndroidManifest.xml文件中添加以下权限，以便应用能够访问设备的存储和相机：

<uses-permission android:name="android.permission.INTERNET" />
<uses-permission android:name="android.permission.READ_EXTERNAL_STORAGE" />
<uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE" />
<uses-permission android:name="android.permission.CAMERA" />

2.3 文本识别功能的实现

在Activity或Fragment中初始化ML Kit的文本识别器：

public class MlkitActivity extends AppCompatActivity {
    private static final String TAG = "MlkitActivity";
    private TextRecognizer recognizer;

    @Override
    protected void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_mlkit);

        // 初始化文本识别器
        recognizer = TextRecognition.getClient(new ChineseTextRecognizerOptions.Builder().build());
    }

    private void recognizeText(File imageFile) {
        Bitmap bitmap = BitmapFactory.decodeFile(imageFile.getAbsolutePath());
        InputImage image = InputImage.fromBitmap(bitmap, 0);

        recognizer.process(image)
                .addOnSuccessListener(visionText -> {
                    StringBuilder recognizedText = new StringBuilder();
                    for (com.google.mlkit.vision.text.Text.TextBlock block : visionText.getTextBlocks()) {
                        for (com.google.mlkit.vision.text.Text.Line line : block.getLines()) {
                            String text = line.getText();
                            recognizedText.append(text).append("\n");
                        }
                    }

                    String recognizedString = recognizedText.toString();
                    Log.d(TAG, "Recognized Text: " + recognizedString);

                    String name = extractName(recognizedString);
                    String idNumber = extractIdNumber(recognizedString);

                    if (name != null) {
                        Toast.makeText(MlkitActivity.this, "姓名: " + name, Toast.LENGTH_LONG).show();
                        Log.d(TAG, "姓名: " + name);
                    }

                    if (idNumber != null) {
                        Toast.makeText(MlkitActivity.this, "身份证号: " + idNumber, Toast.LENGTH_LONG).show();
                        Log.d(TAG, "身份证号: " + idNumber);
                    }

                })
                .addOnFailureListener(e -> Log.e(TAG, "Text recognition failed", e));
    }

     /**
     * 从文本中提取姓名。
     */
    private String extractName(String text) {
        String[] lines = text.split("\n");
        for (String line : lines) {
            line = StringUtils.removeWhitespace(line);
            if (line.contains("姓名")) {
                int index = line.indexOf("姓名");
                if (index != -1) {
                    return line.substring(index + 2).trim();
                }
            }
        }
        return null;
    }

    /**
     * 从文本中提取身份证号码。
     */
    private String extractIdNumber(String text) {
        Pattern pattern = Pattern.compile("\\d{17}[\\dXx]");
        Matcher matcher = pattern.matcher(text);
        if (matcher.find()) {
            return matcher.group();
        }
        return null;
    }
}

2.4 确保数据安全的措施

在处理敏感数据（如身份证照片）时，确保数据安全是至关重要的。以下是几种确保数据安全的措施：

2.4.1 本地处理数据

ML Kit支持本地模型，因此在断网环境下依然能够进行文本识别。在使用ML Kit时，可以采取以下措施确保数据不被上传到云端：

断开网络连接：在进行文本识别时，断开设备的网络连接，以确保所有处理都在本地进行。
使用本地模型：ML Kit的文本识别功能默认使用本地模型进行处理，无需担心数据会被上传。

// 断开网络连接的示例方法
private void disableNetwork() {
    ConnectivityManager cm = (ConnectivityManager) getSystemService(Context.CONNECTIVITY_SERVICE);
    if (cm != null) {
        cm.setNetworkPreference(ConnectivityManager.TYPE_NONE);
    }
}