Android基于百度OCR识别图片中的文字

最新推荐文章于 2024-08-13 08:24:07 发布

Nosophora

最新推荐文章于 2024-08-13 08:24:07 发布

阅读量2.6k

点赞数

文章标签： android

本文链接：https://blog.csdn.net/Cosmicterror/article/details/121882658

版权

本文介绍了如何在Android应用中使用百度OCR接口来识别图片中的文字，涉及技术包括retrofit+rxjava进行网络请求，动态权限申请，图片base64转码以及MVP框架。详细讲解了请求模块的定义，包括接口方法的创建和网络调用，以及相机功能的调用来获取图片并进行识别。

摘要由CSDN通过智能技术生成

OCR （Optical Character Recognition ），即光学字符识别，指的是针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。简单的来说，OCR技术就是可以把图片上的文字识别出来，并以文本格式的形式提取出来。
该技术已广泛应用于生活中。比如很多翻译软件都有的拍照翻译功能，就利用了该技术。这里尝试使用百度OCR接口实现Android拍照识别文字功能。

请求模块定义

这里以网络api的方式来进行识别。涉及到的技术有 retrofit+rxjava 进行网络请求，Android应用动态权限的申请，FileProvider，图片的base64转码，以及热门的MVP框架。

项目结构：

module目录下存放的是MVP架构的三个模块，bean目录下存放的是网络请求返回的数据类型，apiservice中存放的是retrofit有关网络请求的接口。
在这里插入图片描述

根据百度官方的请求方法定义接口方法：

    /**
     * 通过图片，获取图片内的文字信息
     * @param accessToken 通过API Key和Secret Key获取的access_token
     * @param image 图像数据base64编码后进行urlencode后的String
     * @return  observable对象用于rxjava,从RecognitionResultBean中可以获得图片文字识别的信息
     */
    @POST("rest/2.0/ocr/v1/general_basic")
    @FormUrlEncoded
    Observable<RecognitionResultBean> getRecognitionResultByImage(@Field("access_token") String accessToken, @Field("image") String image);

该方法中，第一个参数是access_token（需申请百度文字识别的开发者资格，得到API key和Secret Key后获取），第二个参数则是String类型，这个参数是在本地将图片base64转码之后生成。

这些参数以POST的形式发送，按照百度OCR api 的要求，使用@FormUrlEncode注释。这里使用@Field的方式将参数加入请求体。可以看到Observable中的是RecognitionResultBean类型，从里面拿到服务器返回的文字识别信息。

定义好之后便可以构造retrofit对象进行调用。

 Retrofit retrofit = new Retrofit.Builder()
                .baseUrl("https://aip.baidubce.com/")
                .addConverterFactory(GsonConverterFactory.create())
                .addCallAdapterFactory(RxJava2CallAdapterFactory.create())
                .build();

        baiduOCRService = retrofit.create(BaiduOCRService.class);