本人在做比价蜘蛛的时候用到:京东商城的单品价格是图片形式,所以需要识别。
首先下载tessnet2_32.dll及相关语言包,将dll加入引用
private tessnet2.Tesseract ocr = new tessnet2.Tesseract();//声明一个OCR类
//程序开始的时候,初始化OCR
ocr.SetVariable("tessedit_char_whitelist", "0123456789."); //设置识别变量,当前只能识别数字。
ocr.Init(@"D:\tessdata", "eng", false); //应用当前语言包。注,Tessnet2是支持多国语的。语言包下载链接:http://code.google.com/p/tesseract-ocr/downloads/list
//下边这个函数是将网络上的图片识别成字符串,传入图片的超链接,输出字符串
public string Bmp2Str(string bmpurl)
{
//http://www.newwhy.com/2010/0910/13708.html
string s = "0";
WebClient wc = new WebClient();
try
{
byte[] oimg = wc.DownloadData(bmpurl);//将要识别的图像下载下来
MemoryStream ms