python提取图片中的文字并生成word文档
近在学习的过程中发现书中有好多知识点,但本人过于懒惰,不爱翻书、记笔记,于是我就想到了为何不用手机将内容拍下来,然后直接生成word文件。本菜鸟接下来就教大家如何用百度提供的图像识别接口来完成图像文字的提取。
文字识别OCR:https://ai.baidu.com/ai-doc/OCR/Ek3h7yeiq
首先,需要两个模块:baidu-aip、python-docx。如果没有,可以直接用pip命令安装。
pip install baidu-aip
pip install python-docx
其次,导入相关的库,新建对象并设置相关参数。
from aip import AipOcr
from docx import Document
"""相关参数"""
APP_ID = 'APP_ID'
API_KEY = 'API_KEY'
SECRET_KEY = 'SECRET_KEY'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
这里的APP_ID、API_KEY、SECRET_KEY通过链接https://login.bce.baidu.com/?redirect=https%3A%2F%2Fconsole.bce.baidu.com%2F%3Ffromai%3D1#/aip/overview
用百度账号登录并创建自己的图像识别应用获取。(免费)
然后、获取图片信息,并配置相关属性
网络图片
imageurl = "图片链接"
本地图片
imagepath = "图片路径"
配置相关属性,并传入参数。
""" 如果有可选参数 """
options = {
}#配置字典
options[&