整个项目是基于springboot的
暂时只完成了基本的功能html
应用
能够用来解决爬虫的文字反爬问题,以及其余文字识别的场景.java
开放接口
Type:post
返回格式:json
请求参数说明:
multipartFile: 必填 Content-Type为application/x-www-form-urlencoded,而后经过urlencode格式化请求体 图片最大不能超过2mlinux
返回参数说明:
{
success:true,
message:'结果',
status:2
}
success 布尔值 是否响应成功
message 字符串 成功则是结果,失败则是缘由
status 预留属性 用于扩展git
下载地址
部署流程
在部署以前确保您安装了JDK(文中使用的是Jdk1.8)
在Windows中tess4j是调用的dll依赖文件,而在linux中调用的是so依赖文件web
安装leptonica(tess4j依赖于tessract,tessract依赖于leptonica)
leptonica下载地址(tess4j版本大于4.0的leptonica版本须要大于1.74)
下载完成上传到linux中/usr/local目录
将该文件解压到/usr/localtar -zxvf leptonica-版本号.tar.gz
解压以后会出现一个leptonica-版本号的文件夹,进入该文件夹
./configure
make
make install
vim /etc/bashrc
将以下文本粘贴到最下面
export PKG_CONFIG_PATH
CPLUS_INCLUDE_PATH=$CPLUS_INCLUDE_PATH:/usr/local/include/
export CPLUS_INCLUDE_PATH
C_INCLUDE_PATH=$C_INCLUDE_PATH:/usr/local/leptonica/include/leptonica
export C_INCLUDE_PATH
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
export LD_LIBRARY_PATH
LIBRARY_PATH=$LIBRARY_PATH:/usr/local/lib
export LIBRARY_PATH
export LC_ALL=C
source /etc/bashrc刷新配置文件
这时候/usr/local下面多个三个文件夹bin include lib
安装tessract
在执行./configure的时候若是遇到configure: error: Leptonica 1.74 or higher is required. Try to install libleptonica-dev package.spring
请将这些环境变量添加至/etc/bashrc中,保存以后记得source /etc/bashrcjson
export LD_LIBRARY_PATH=$LD_LIBRARY_PAYT:/usr/local/lib
export LIBLEPT_HEADERSDIR=/usr/local/include
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
并将/usr/local/lib下相关的tesseract和leptonica的library(.so)的文件复制到 /usr/lib下vim
或者直接添加成这样便可浏览器
PKG_CONFIG_PATH=$PKG_CONFIG_PATH:/usr/local/lib/pkgconfig
export PKG_CONFIG_PATH
CPLUS_INCLUDE_PATH=$CPLUS_INCLUDE_PATH:/usr/local/include/
export CPLUS_INCLUDE_PATH
C_INCLUDE_PATH=$C_INCLUDE_PATH:/usr/local/leptonica/include/leptonica
export C_INCLUDE_PATH
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
export LD_LIBRARY_PATH
LIBRARY_PATH=$LIBRARY_PATH:/usr/local/lib
export LIBRARY_PATH
解压并上传
执行如下命令
./autogen.sh
./configure
make
make install
export PKG_CONFIG_PATH=$HOME/local/lib/pkgconfig
Java应用部署
上传刚才提供的jar包到你本身的服务器
java -jar ocr.jar &后台运行整个服务
此时是没法访问的,给定默认的端口是8081,因此须要开启8081的端口号如何开启端口
而后在root目录下面建立project/ocr/static这个目录
将index.html放进该文件夹,将提供的tessdata文件夹拷贝到/root/project/ocr/目录下,ocr目录下再建立upload_img_dir用于存放上传的图片文件
部署完成 能够在浏览器使用http://你的IP地址/域名:8081进行访问了