华为LAB实验室7-文字识别

最新推荐文章于 2024-08-30 19:49:24 发布

乾颐堂官方技术博客

最新推荐文章于 2024-08-30 19:49:24 发布

阅读量404

点赞数

分类专栏： HCIA 文章标签：人工智能华为云机器学习 Powered by 金山文档

本文链接：https://blog.csdn.net/networking369/article/details/129262755

版权

本教程介绍了如何使用华为云的文字识别服务进行通用文字、表格和手写文字识别。通过开通服务、安装SDK，学习使用Python调用API进行识别任务，包括通用文字识别的image、url参数，通用表格识别的return_text_location、return_excel选项，以及手写文字识别的quick_mode、detect_direction参数。

摘要由CSDN通过智能技术生成

各位好，我是乾颐堂大堂子。领取完整实战指南可以私信我，关键词：实战指南

0.1-实验简介

*文字识别（Optical Character Recognition，OCR）是指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式。OCR以开放API（Application Programming Interface，应用程序编程接口）的方式提供给用户，用户通过实时访问和调用API获取推理结果，帮助用户自动采集关键数据，打造智能化业务系统，提升业务效率。

*通用文字识别：提取图片内的文字及其对应位置信息，并能够根据文字在图片中的位置进行结构化整理工作。

*通用表格识别：提取表格内的文字和所在行列位置信息，适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化，恢复结构化信息。

*手写文字：识别文档中的手写文字、印刷文字信息，并将识别的结构化结果以JSON格式返回给用户。

*文字识别服务通常可以通过以下两种方式进行调用，一种是调用华为云提供的SDK，另一种是调用相应服务的API接口。用户首先需要在华为云“EI企业智能>人工智能>文字识别OCR”

*页面开通相关服务（服务只需要开通一次即可，后面使用时无需再申请）。其次，利用API接口的开发者可以在华为云提供的API Explorer对不同服务的接口进行调测，同时API Explorer上提供有多种编程语言的SDK代码示例可供开发者参考使用。

0.2-实验目的

本实验主要介绍了使用华为云文字识别服务，通过本实验学员将了解如何利用华为云的文字识别服务进行通用文字识别、通用表格识别、手写文字识别功能。目前华为云有提供基于Python语言的文字识别SDK，本实验将指导学员理解和掌握如何使用Python进行通用文字识别、表格识别、手写文字识别业务的开发方法和技巧。

1-开通文字识别服务、准备AK/SK、准备project_id、SDK安装

参考第2小节实验手册“书本识别”步骤进行获取

开通服务

开通文字识别服务：登录文字识别管理控制台（https://console.huaweicloud.com/ocr/?region=cn-north-4），依次选择左侧的“总览”，“通用文字识别”、“通用表格识别”和“手写文字识别”，分别在界面单击“开通服务”。服务开通一次即可，后续使用时无需再开通。相关服务资费详情请参考华为云价格计算器。

SDK安装