最近有个需要,小程序端手写中文之后生成图像,后端需识别图片上中文..;刚开始想到第三方收费api试试,先用了百度AI开放平台的通用字体识别的API,后来又找到了Tessearct-OCR,参考了几篇文摘整合了一下
准备:
1.下载Tessearct-COR 3.0以上版本:https://download.csdn.net/download/qq_26161693/10646074
2. 在安装时选择chi_sim.traineddata 语言库;之后在程序中需加载安装目录tessdata下的中文包(chi_sim.traineddata );
maven依赖:
net.sourceforge.tess4j
tess4j
3.2.1
Demo:
/**
*
* @param srImage 图片路径
* @param ZH_CN 是否使用中文训练库,true-是
* @return 识别结果
*/
public static String discernWord(String imagePath) {
try {
File image = new File(imagePath);
BufferedImage textImage = ImageIO.read(image);
Tesseract instance = Tesseract.getInstance();
instance.setDatapath("C:\\Program Files (x86)\\Tesseract-OCR\\tessdata");// 设置语言库
instance.setLanguage("chi_sim");// 中文识别
<