c#图片OCR识别
c#图片OCR识别
c#OCR识别图片识别文字,支持中文,内有一百多个语言支持包。无第三方接口。使用开源框架。语言支持包在 debug下面的tessdata中,代码调用简单,传入对应支持包名称即可。
1、下载程序包Tesseract
加载不出来,可能协议不支持,修改一下再试。控制台输入:[Net.ServicePointManager]::SecurityProtocol=[Net.ServicePointManager]::SecurityProtocol-bOR [Net.SecurityProtocolType]::Tls12
2、下载语言包。包含所有工程源码,含语言支持包100多种,包含中文
3、tesseract的识别语言包直接把这个文件包放到运行程序目录(bin\debug)下:
调用代码识别:
//首先先初始化类,设置语言
TesseractEngine ocr;
ocr = new TesseractEngine("./tessdata", "chi_sim");//设置语言 中文
//ocr = new TesseractEngine("./tessdata", "eng", EngineMode.TesseractAndCube);//设置语言 英文
//ocr = new TesseractEngine("./tessdata", "jpn");//设置语言 日语
// 导入图片进行识别
Bitmap bit = new Bitmap(Image.FromFile("D:\\a9.jpg"));
//bit = PreprocesImage(bit);//进行图像处理,如果识别率低可试试
Page page = ocr.Process(bit);
string str = page.GetText();//识别后的内容
page.Dispose();
到此完成,操作简单。都是免费开源框架,支持语言包众多。是一个不错选择。