Tesseract-OCR识别中文与训练字库实例

关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试用一下,分享到博客让有同样兴趣的人少走弯路。

文中所用到的身份证图片资源是百度找的,如有侵权可联系我删除。

 

一、准备工作

1、下载Tesseract-OCR引擎,注意要3.0以上才支持中文哦,按照提示安装就行,Windows下:https://github.com/UB-Mannheim/tesseract/wiki

2、下载chi_sim.traindata字库。要有这个才能识别中文。下好后,放到Tesseract-OCR项目的tessdata文件夹里面。

3、下载jTessBoxEditor,这个是用来训练字库的。

以上的几个在百度都能找到下载,就不详细讲了。

 

 

二、识别

1、进入cmd,进入到要识别的图片的路径下。

2、输入命令

  

tesseract 图片名称 生成的结果文件的名称 字库

例如我的图片识别就是:

  

tesseract test.jpg result -l chi_sim

识别完后会生成result.txt文件

当然啦效果不太理想。所以我们要训练自己的字库。

 

三、训练

1、将图片转换成tif格式,用于后面生成box文件。可以通过画图,然后另存为tif即可。

更改图片名字,这个是有要求的=。=

tif文面命名格式[lang].[fontname].exp[num].tif
lang是语言 fontname是字体 
比如我们要训练自定义字库 mjorcen字体名normal
那么我们把图片文件重命名 mjorcen.normal.exp0.jpg在转tif。

 

2、生成box文件。

tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l chi_sim batch.nochop makebox

 

box文件和对应的tif一定要在相同的目录下,不然后面打不开。

 

3、打开jTessBoxEditor矫正错误并训练

打开train.bat

找到tif图,打开,并校正。

 

4、训练。

只要在命令行输入命令即可。

  

tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 nobatch box.train

unicharset_extractor mjorcen.normal.exp0.box

在这我明明已经矫正好了,但是还是有1个字符不能识别出来,报的错跟实际上完全没有相关性,不知道是不是bug,到后面的结果就是“园”字没有识别出来。

先不管,毕竟只有一个样本。

 

新建一个font_properties文件

里面内容写入 normal 0 0 0 0 0 表示默认普通字体

 

继续敲命令

shapeclustering -F font_properties -U unicharset mjorcen.normal.exp0.tr 
mftraining -F font_properties -U unicharset -O unicharset mjorcen.normal.exp0.tr 
cntraining mjorcen.normal.exp0.tr

 

最后会生成五个文件,把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上normal.

如图:

 

命令行输入,合并五个文件:

  

combine_tessdata normal.

得到训练好的字库。

 

四、测试

1、把 normal.traineddata 复制到Tesseract-OCR 安装目录下的tessdata文件夹中

 

2、识别命令:

  

tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l normal

3、效果

 

对比:

 

 

总结:肯定要自己训练过后的字库识别效果好,接下来要把整个项目弄进android,还要研究怎么将多个字库合并成一个字库,因为我不可能一次训练完所有的图片文字的。到时候有什么成果了再分享博文。希望大家可以点赞!谢谢。

 

更新:没有错误的话命令行的提示应该是这样的

 

c# 引用Tesseract,Tesseract是Google维护的一个OCR识别图片文字的开源项目。而A .Net wrapper for the tesseract ocr Library则是可供.Net平台应用程序使用Tesseract的程序包,由Charles Weld在Github上创建的开源项目,下载量大且持续更新,

https://github.com/charlesw/tesseract通过nuget,如下:

以下是测试程序:

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Drawing.Imaging;
using System.Linq;
using System.Runtime.InteropServices;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
using Tesseract;

namespace WindowsFormsApplication2
{
    public partial class Form1 : Form
    {
        const int CHARSIZE = 5;
        public Form1()
        {
            InitializeComponent();
            string code;
            this.pictureBox1.Image = ValidateCodeUtils.CreateImage(CHARSIZE, out code);
            this.textBox1.Text = code;
        }

        private void 验证码_Click(object sender, EventArgs e)
        {
            string code;
            this.pictureBox1.Image = ValidateCodeUtils.CreateImage(CHARSIZE, out code);
            this.textBox1.Text = code;
        }

        private void StartOCR()
        {
            string txt = "";
            
            //string defaultList = "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz";
            string defaultList = "2345689ABCDEFGHJKLMNPRSTWXY";
            const string language = "eng";

            //Nuget安装的Tessract版本为3.20,tessdata的版本必须与其匹配,另外路径最后必须以"\"或者"/"结尾
            const string TessractData = @"D:\Program Files\Tesseract-OCR\tessdata\";

            TesseractEngine test = new TesseractEngine(TessractData, language);

            test.SetVariable("tessedit_char_whitelist", defaultList);

            Bitmap tmpVal = (Bitmap)this.pictureBox1.Image;
            //灰度化,最新版本的Tesseract内部已经有了类似灰度化、二值化的封装,彩色一样可以识别,只是,验证码加上噪点或噪线识别的就乱七八糟了
            var tmpImage = ToGray(tmpVal);

            this.pictureBox2.Image = tmpImage;

            Page tmpPage = test.Process(tmpImage, pageSegMode: test.DefaultPageSegMode);

            txt = tmpPage.GetText();

            this.textBox2.Text = txt;
        }

        private void button1_Click(object sender, EventArgs e)
        {
            StartOCR();
        }

        //图像灰度化:http://www.cnblogs.com/gdjlc/archive/2013/03/05/2943801.html
        //将彩色图像转化成为灰度图像的过程成为图像的灰度化处理。
        //彩色图像中的每个像素的颜色有R、G、B三个分量决定,而每个分量有255中值可取,
        //这样一个像素点可以有1600多万(255*255*255)的颜色的变化范围。
        //而灰度图像是R、G、B三个分量相同的一种特殊的彩色图像,其一个像素点的变化范围为255种,
        //所以在数字图像处理种一般先将各种格式的图像转变成灰度图像以使后续的图像的计算量变得少一些。
        //灰度图像的描述与彩色图像一样仍然反映了整幅图像的整体和局部的色度和亮度等级的分布和特征。
        //图像的灰度化处理可用两种方法来实现。
        //第一种方法使求出每个像素点的R、G、B三个分量的平均值,然后将这个平均值赋予给这个像素的三个分量。
        //第二种方法是根据YUV的颜色空间中,Y的分量的物理意义是点的亮度,由该值反映亮度等级,
        //根据RGB和YUV颜色空间的变化关系可建立亮度Y与R、G、B三个颜色分量的对应:Y=0.3R+0.59G+0.11B,以这个亮度值表达图像的灰度值。
        /// <summary>
        /// 图像灰度化
        /// </summary>
        /// <param name="bmp"></param>
        /// <returns></returns>
        public static Bitmap ToGray(Bitmap bmp)
        {
            for (int i = 0; i < bmp.Width; i++)
            {
                for (int j = 0; j < bmp.Height; j++)
                {
                    //获取该点的像素的RGB的颜色
                    Color color = bmp.GetPixel(i, j);
                    //利用公式计算灰度值
                    int gray = (int)(color.R * 0.3 + color.G * 0.59 + color.B * 0.11);
                    Color newColor = Color.FromArgb(gray, gray, gray);
                    bmp.SetPixel(i, j, newColor);
                }
            }
            return bmp;
        }
        //灰度反转:
        //把每个像素点的R、G、B三个分量的值0的设为255,255的设为0。
        /// <summary>
        /// 图像灰度反转
        /// </summary>
        /// <param name="bmp"></param>
        /// <returns></returns>
        public static Bitmap GrayReverse(Bitmap bmp)
        {
            for (int i = 0; i < bmp.Width; i++)
            {
                for (int j = 0; j < bmp.Height; j++)
                {
                    //获取该点的像素的RGB的颜色
                    Color color = bmp.GetPixel(i, j);
                    Color newColor = Color.FromArgb(255 - color.R, 255 - color.G, 255 - color.B);
                    bmp.SetPixel(i, j, newColor);
                }
            }
            return bmp;
        }

        //灰度图像二值化:
        //在进行了灰度化处理之后,图像中的每个象素只有一个值,那就是象素的灰度值。它的大小决定了象素的亮暗程度。
        //为了更加便利的开展下面的图像处理操作,还需要对已经得到的灰度图像做一个二值化处理。
        //图像的二值化就是把图像中的象素根据一定的标准分化成两种颜色。在系统中是根据象素的灰度值处理成黑白两种颜色。
        //和灰度化相似的,图像的二值化也有很多成熟的算法。它可以采用自适应阀值法,也可以采用给定阀值法。
        /// <summary>
        /// 图像二值化1:取图片的平均灰度作为阈值,低于该值的全都为0,高于该值的全都为255
        /// </summary>
        /// <param name="bmp"></param>
        /// <returns></returns>
        public static Bitmap ConvertTo1Bpp1(Bitmap bmp)
        {
            int average = 0;
            for (int i = 0; i < bmp.Width; i++)
            {
                for (int j = 0; j < bmp.Height; j++)
                {
                    Color color = bmp.GetPixel(i, j);
                    average += color.B;
                }
            }
            average = (int)average / (bmp.Width * bmp.Height);

            for (int i = 0; i < bmp.Width; i++)
            {
                for (int j = 0; j < bmp.Height; j++)
                {
                    //获取该点的像素的RGB的颜色
                    Color color = bmp.GetPixel(i, j);
                    int value = 255 - color.B;
                    Color newColor = value > average ? Color.FromArgb(0, 0, 0) : Color.FromArgb(255,

255, 255);
                    bmp.SetPixel(i, j, newColor);
                }
            }
            return bmp;
        }

        /// <summary>
        /// 图像二值化2
        /// </summary>
        /// <param name="img"></param>
        /// <returns></returns>
        public static Bitmap ConvertTo1Bpp2(Bitmap img)
        {
            int w = img.Width;
            int h = img.Height;
            Bitmap bmp = new Bitmap(w, h, PixelFormat.Format1bppIndexed);
            BitmapData data = bmp.LockBits(new Rectangle(0, 0, w, h), ImageLockMode.ReadWrite,

PixelFormat.Format1bppIndexed);
            for (int y = 0; y < h; y++)
            {
                byte[] scan = new byte[(w + 7) / 8];
                for (int x = 0; x < w; x++)
                {
                    Color c = img.GetPixel(x, y);
                    if (c.GetBrightness() >= 0.5) scan[x / 8] |= (byte)(0x80 >> (x % 8));
                }
                Marshal.Copy(scan, 0, (IntPtr)((int)data.Scan0 + data.Stride * y), scan.Length);
            }
            bmp.UnlockBits(data);
            return bmp;
        }
    }

    public class ValidateCodeUtils
    {
        public static Bitmap CreateImage(int length, out string validateCode)
        {
            validateCode = string.Empty;
            //颜色列表,用于验证码、噪线、噪点 
            Color[] color = { Color.Black, Color.Purple, Color.Red, Color.Blue, Color.Brown, Color.Navy };
            //字体列表,用于验证码 
            string[] font = { "Times New Roman", "MS Mincho", "Book Antiqua", "Gungsuh", "PMingLiU", "Impact" };
            //验证码的字符集,去掉了一些容易混淆的字符 
            char[] character = { '2', '3', '4', '5', '6', '8', '9', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'J', 'K', 'L', 'M', 'N', 'P', 'R', 'S', 'T', 'W', 'X', 'Y' };
            Random rnd = new Random();
            //生成验证码字符串 
            for (int i = 0; i < length; i++)
            {
                validateCode += character[rnd.Next(character.Length)];
            }
            Bitmap bmp = new Bitmap(length * 20 + 20, 40);
            Graphics g = Graphics.FromImage(bmp);
            g.Clear(Color.White);
            画噪线 
            //for (int i = 0; i < 10; i++)
            //{
            //    int x1 = rnd.Next(20) * rnd.Next(5);
            //    int y1 = rnd.Next(8) * rnd.Next(5);
            //    int x2 = rnd.Next(20) * rnd.Next(5);
            //    int y2 = rnd.Next(8) * rnd.Next(5);
            //    Color clr = color[rnd.Next(color.Length)];
            //    g.DrawLine(new Pen(clr), x1, y1, x2, y2);
            //}
            //画验证码字符串 
            for (int i = 0; i < validateCode.Length; i++)
            {
                string fnt = font[rnd.Next(font.Length)];
                Font ft = new Font(fnt, 18);
                Color clr = color[rnd.Next(color.Length)];
                g.DrawString(validateCode[i].ToString(), ft, new SolidBrush(clr), (float)i * 20 + 8, (float)8);
            }
            画噪点 
            //for (int i = 0; i < 30; i++)
            //{
            //    int x = rnd.Next(bmp.Width);
            //    int y = rnd.Next(bmp.Height);
            //    Color clr = color[rnd.Next(color.Length)];
            //    bmp.SetPixel(x, y, clr);
            //}
            try
            {
                return bmp;
            }
            finally
            {
                //显式释放资源 
                g.Dispose();
            }
        }
    }
}

效果如下:

  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: tesseract-ocr是一种开源的OCR(光学字符识别)引擎,可以用于识别各种语言的文字。对于中文的文字识别,我们需要进行训练来构建一个适合中文字库。 首先,我们需要准备一个包含足够多的中文字符的训练数据集。这些数据集可以包括手写字、印刷体字、不同字体和大小的字等。然后,我们需要将这些图片转换成tesseract-ocr可以识别的格式(比如tif或png格式)。 接下来,我们需要创建一个训练文件,该文件应该包含每个字符的图像文件名和相应的unicode编码。这可以通过编写一个脚本来实现。然后,我们使用tesseract-ocr训练命令对这些字符进行训练,生成一个字库文件(通常是一个.traineddata文件)。 训练命令的具体使用方法可以参考tesseract的官方文档。一般来说,我们需要指定训练数据集的路径、字库文件的输出路径以及其他一些配置参数,如迭代次数、学习率等。 训练完成后,我们可以将生成的字库文件放置到tesseract-ocr的语言包目录中。然后,使用tesseract-ocr识别命令,指定使用中文字库进行识别。 需要注意的是,tesseract-ocr识别中文时可能存在一些问题,特别是对于手写体和一些特殊字体。因此,我们需要对识别结果进行后处理,如去除一些错误的字符或进行字符校验。 总之,通过训练字库,我们可以使用tesseract-ocr识别中文字符,为中文OCR应用提供支持。虽然训练过程需要一些时间和精力,但它可以提高对中文文字的准确识别率,并且允许我们自定义和扩展字库,以满足特定需求。 ### 回答2: Tesseract-OCR是一种强大的开源光学字符识别OCR)引擎,可用于将印刷体文本转换为可编辑的文本格式。Tesseract能够识别多种语言,包括中文。 要让Tesseract识别中文,需进行一些额外的配置和训练。首先,你需要下载中文训练数据集,如chi_sim.traineddata。这个数据集包含了Tesseract学习如何识别中文字符的训练信息。 然后,将训练数据集放置在Tesseract训练数据目录下。接下来,你需要对Tesseract进行设置,以指定要使用的训练数据集。这可以通过在代码中使用`TessBaseAPI`库和`SetVariable`函数来完成。 创建一个Tesseract实例后,你可以使用`SetVariable`函数设置`lang`变量为"chi_sim",以指定要使用的训练数据集为中文。 之后,你可以加载要识别的图像,并使用`Recognize`函数将其识别为文本。Tesseract将尝试识别图像中的文字,并将结果返回为可编辑的文本。 以下是一个简单的示例代码: ```c #include <tesseract/baseapi.h> #include <leptonica/allheaders.h> int main() { // 创建Tesseract实例 tesseract::TessBaseAPI* api = new tesseract::TessBaseAPI(); // 设置要使用的训练数据集为中文 api->SetVariable("lang", "chi_sim"); // 加载要识别的图像 Pix* image = pixRead("/path/to/your/image.png"); api->SetImage(image); // 进行识别 api->Recognize(0); // 获取识别结果 char* text = api->GetUTF8Text(); printf("识别结果:\n%s", text); // 释放资源 api->End(); delete[] text; pixDestroy(&image); return 0; } ``` 通过以上步骤,你可以使用Tesseract-OCR识别中文,并获取到识别结果。这样,你就可以将印刷体中文文本转换为可编辑的文本格式,便于进一步处理和使用。 ### 回答3: Tesseract-OCR是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,它最初由惠普实验室开发,现在由谷歌维护。它能够将图像中的文字转换成可编辑的文本,并且支持多种语言的识别,包括中文。 在Tesseract-OCR识别中文的过程中,关键是配置合适的字库并进行训练字库是一系列用于训练OCR引擎的字符图像和相应的字符编码的集合。 首先,我们需要准备一组中文字符的图像样本,这些样本应该尽量包含不同的字体、大小和风格。可以使用现有的中文字符数据集,或者手动收集一些样本。接下来,将这些字符图像转换为合适的格式,例如,可以将它们转换为tif格式。 然后,我们需要创建一个训练字库的配置文件。在这个配置文件中,我们需要指定字库的名称,训练过程中使用的字符集,以及其他相关的参数。可以通过编辑一个名为“unicharset”的文件来配置这些内容。 接下来,我们需要运行训练命令来训练字库。在命令行中,可以使用tesseract命令来运行训练过程。可以指定训练数据的路径、配置文件的路径和输出模型的路径。运行命令后,训练过程将会开始,并且会生成一个训练好的字库模型文件。 最后,我们可以使用训练好的字库模型来识别中文。在使用Tesseract-OCR进行中文识别时,我们可以通过设置识别语言为中文,以及加载之前训练好的字库模型来进行识别。 总结来说,在使用Tesseract-OCR识别中文的过程中,需要准备中文字符的图像样本,创建训练字库的配置文件,运行训练命令进行字库训练,最后使用训练好的字库模型进行中文识别
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值