(CentOS7)PHP应用Tesseract文字识别中文

// Github 文档
tesseract:https://github.com/thiagoalessio/tesseract-ocr-for-php

// 安装 tesseract
1.yum install tesseract

// 查看版本,能看到版本说明安装完成
2.tesseract -v

// 搜索语言包
3.yum search tesseract-langpack
//也可以到GitHub下载:https://github.com/tesseract-ocr/tessdata

mirrors / tesseract-ocr / tessdata · GitCode

// 安装Composer包
4.composer require thiagoalessio/tesseract_ocr

5.// php调用OCR
use thiagoalessio\TesseractOCR\TesseractOCR;
public function demo(){
    $ocr = new TesseractOCR('demo.jpg');
    echo $ocr->run();
}

6.进阶
安装语言包:
yum install tesseract-langpack-chi_sim.noarch (简体中文)
yum install tesseract-langpack-chi_tra.noarch (繁体中文)
yum install tesseract-langpack-eng.noarch (英语)
yum install tesseract-langpack-jpn.noarch (日语)

use thiagoalessio\TesseractOCR\TesseractOCR;
public function demo(){
    // lang('chi_tra','chi_sim','eng','jpn')指定语言
    echo (new TesseractOCR('demo.jpg'))->lang('chi_tra','chi_sim','eng','jpn')->run();
}

其他:
php中开启exec,system等函数调用系统命令
修改php.ini文件
disable_functions = proc_open, popen, exec, system, shell_exec, passthru
这里要把 exec,system,shell_exec 去掉
重启 php

升级tesseract 4.1 版本
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
yum update tesseract
yum list tesseract
yum install tesseract
tesseract -v 如果没有更新版本,建议卸载掉以前的旧版本,重新安装

参考以上步骤安装tesseract4版本

对于tesseract4以上版本,中文语言包需要单独下载,中文语言包名chi_sim.traineddata,和window版本语言包一样,可以复制过来使用,放在/usr/share/tesseract/4/tessdata目录下。

测试图片识别命令,直接在命令行里输出,默认是英文。 # tesseract test.jpg stdout

中文输出命令:# tesseract test.jpg stdout -l chi_sim,如果输出报错,提示TESSDATA_PREFIX变量要求指向tessdata目录,需要在etc/profile.d/lang.sh文件里添加PATH=$PATH:/usr/local/tesseract/bin
export PATH
export TESSDATA_PREFIX="/usr/share/tesseract/4/tessdata" 
export PATH=$PATH:$TESSDATA_PREFIX

保存后,命令行里输入命令:source /etc/profile 即可生效。再输入中文识别命令即可显示中文。

其它常用命令:查看语言包 # tesseract --list-langs

window版参考:Win10 环境安装tesseract-ocr 4.00并配置环境变量

https://www.lmlphp.com/user/100143/article/item/1244497/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
CentOS 7 默认情况下是支持中文编码的。你可以通过安装字体库和中文字体来确保正常显示中文。要在CentOS 7上安装字体库和中文字体,你可以按照以下步骤进行操作: 1. 参考中的链接,了解如何在CentOS 7上安装字体库和中文字体。这个链接提供了详细的安装方法和步骤。 2. 打开终端,并使用以下命令查看当前的系统区域设置文件:[root@localhost~]$ cat /etc/locale.conf 3. 确保locale.conf文件中的设置正确。如果需要修改,请按照中的提示进行修改。 4. 重新启动系统以使更改生效。 通过以上步骤,你可以确保CentOS 7能够正确识别中文编码,并正常显示中文内容。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [CentOS7解决中文乱码](https://blog.csdn.net/a104219702/article/details/127152501)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [CentOS 7 中文编码 文件编码 文件转码 查看编码 调整编码](https://blog.csdn.net/rungong123/article/details/88385417)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值