关于合合信息的OCR
合合TextIn是上海合合信息科技股份有限公司旗下智能文字识别产品,专注文字识别领域16年,对企业、开发者、个人用户提供智能文字识别引擎、产品、云端服务。
上海合合信息科技股份有限公司是一家人工智能及大数据科技企业,专注于智能文字识别、图像处理、自然语言处理(NLP)、知识图谱、大数据挖掘等技术。基于自主研发的智能文字识别及商业大数据核心技术,为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。
成立于2006年
在C端产品方面,截至2021年3月末,公司扫描全能王、名片全能王、启信宝3款APP在App Store与Google Play应用市场的全球用户累计首次下载量合计超过6亿C端APP2021年3月的月活合计约1.2亿
Google Top Developer全球顶尖开发者
专注于智能文字识别、图像处理、自然语言处理(NLP)、知识图谱、大数据挖掘等技术
拥有111项自主知识产权的发明专利,境外专利38项
如何快速上手API
1. 进行官网注册
点击链接TextIn,进入主页进行注册(红框),然后进行输入手机号
注册成功并登录,进入工作台,用户可以使用其免费提供的100次机会。
2. 点击申请公有API
点击前往市场
市场中有各种识别的API选择,这个地方我们针对文字识别API的使用进行介绍
点击购买免费试用之后,跳转到工作台,便可以看到刚刚购买的机器人
3. 具体使用API
首先记录自己的x-ti-app-id以及x-ti-secret-code,后续需要使用到
点击刚刚机器人的API集成,在此处官网提供了详细的API规范的介绍
此处我们演示python代码
- 安装python3以及安装request依赖(window)
-
步骤1:安装Python
下载Python:
首先,访问Python官方网站(python.org)下载Windows版本的Python安装器。
选择适合你的系统(32位或64位)的安装包。 -
使用命令行安装Python:
打开命令提示符(可以在开始菜单搜索"cmd"或"命令提示符")。
导航到下载的Python安装器的位置。例如,如果安装器位于Downloads文件夹,你可以使用命令cd Downloads。
运行安装命令,例如:python-3.10.4-amd64.exe /quiet InstallAllUsers=1 PrependPath=1
这里python-3.10.4-amd64.exe是假设的安装器文件名,你应该使用你下载的实际文件名。/quiet选项使安装过程在后台执行,不显示安装界面。InstallAllUsers=1使Python安装为所有用户可用(需要管理员权限)。PrependPath=1确保将Python添加到系统的环境变量中,这样你可以从任何命令行窗口运行Python。
-
验证安装:
安装完成后,在命令行输入python --version或python3 --version来检查Python版本,确保正确安装。
python --version
-
安装request依赖
如何python正常安装之后,进入终端(cmd)通过pip工具安装request依赖pip install request
-
- 对于Linux系统的
- 安装python
sudo apt install python3
- 查看python是否正常安装
python3 --version
- 安装request依赖
pip install request
安装之后创建.py文件,注意替换自己的id、secret以及文件路径
此处我们以下面这张图片为例子进行测试.
import requests
import json
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
class CommonOcr(object):
def __init__(self, img_path):
# 请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-app-id
# 示例代码中 x-ti-app-id 非真实数据
self._app_id = 'your x-ti-app-id'
# 请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-secret-code
# 示例代码中 x-ti-secret-code 非真实数据
self._secret_code = 'your x-ti-secret-code'
self._img_path = img_path
def recognize(self):
# 通用文字识别
url = 'https://api.textin.com/ai/service/v2/recognize'
head = {}
try:
image = get_file_content(self._img_path)
head['x-ti-app-id'] = self._app_id
head['x-ti-secret-code'] = self._secret_code
result = requests.post(url, data=image, headers=head)
return result.text
except Exception as e:
return e
if __name__ == "__main__":
response = CommonOcr('example.jpg') # 此处为你需要进行OCR的文件
print(response.recognize())
效果如下,其具体展示了文字的位置以及识别出来的文字
4. 使用体会
借助此次服务外包比赛的机会,第一次使用到了TextIn的OCR的功能,为其优点震撼
-
请求反应时间快:
在使用该OCR API过程中,我最为感动的是它的快速响应时间。从发送图像到接收识别结果的过程几乎是即时的。这种快速响应极大地提升了我的工作流程的连贯性,允许我在短时间内处理大量文档,而不需要等待长时间的处理周期。 -
识别准确性高:
另一个值得称赞的特点是其出色的识别准确性。无论是清晰的打印文本还是稍有挑战的手写笔迹,这个OCR API都能准确识别其中的文字。这种高准确性保证了数据的可靠性,减少了后续校对或更正的需要,这对于保证业务决策和数据分析的准确性至关重要。 -
调用方便:
使用这个OCR API的过程中,我特别欣赏它的易用性。API的集成和调用过程非常直观和简单,无需复杂的配置。通过简单的HTTP请求,我就能轻松发送图像并接收结果,API的文档清晰且例子丰富,使得即使是初学者也能快速上手。 -
多功能性和灵活性:
该API不仅仅局限于基本的文字识别,还提供了多种语言支持和多种格式的识别能力。这种多功能性使其能够适应多种不同的应用场景,从简单的文档数字化到复杂的数据提取和分析任务。
总之,合合信息提供的OCR API以其高速响应、精确的识别能力和用户友好的界面设计,成为了我们团队在开发基于OCR功能的软件时的重要技术支柱。这些特点不仅为我们的项目提供了强大的技术支持,还极大地提高了开发效率和产品质量。