自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Tesseract-OCR3.0使用

    近来由于工作需要,对开源的orc引擎Tesseract做了简单的应用,需求是识别网站图片电话,如locoso、koubei、qingke800等网站    针对不同的站点,采用不同的策略。简单的方法是只要对图片转格式(tif)后做一定比例的放大就可以识别(因站点而易),例如locoso的图片做200%的放大比例后,几乎可以100%识别。而对于koubei尝试了几个比例后,效果不是很理想,所以针对这个站点做了专门的训练语集,训练数据集的生成方法参见看考链接,我做的训练语集对koubei可以达到99%多

2010-12-30 22:28:00 6222 3

原创 freebsd(unxi)下thrift的安装

最近使用到thrif,简单总结一下安装过程,其实通过ports和pkg方式更方便。参考 http://blog.csdn.net/zhangxue/archive/2008/11/11/3274732.aspx操作系统环境:FreeBSD依赖库:libevent 、boost、zlib thrift:http://www.thrift-rpc.org/?p=thrift.git;a

2010-04-29 13:30:00 828

原创 linux下gdb调试之简单命令使用(一)

 最近通读了一下软件调试的艺术(The art of debugging with gdb,ddd,eclipse),总体来说是一般入门级的调试用书。我个人感觉对初学gdb的有一定的作用,有愧于题目art,调试能力的提高必须通过实践。我简单的做个总结,供入门参考。主要讲了gdb的常用命令以及常见bug的调试方法。常用命令:1. 暂停机制    a.断点的使用       设置断点的

2010-03-15 16:10:00 501

原创 unicode简介

unicode编码简介: 最近做一个字符级别去噪的程序,接触了Unicode编码,顺便对对他做了简单的总结。Unicode字符集可以简写为UCS(Unicode Character Set),目前已到版本6.0.0,具体见参考链接。Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳11141

2010-01-27 10:58:00 613

原创 java线程池访问mysql数据库

使用dbcp,可以通过线程池的方式访问数据库import org.apache.commons.dbcp.BasicDataSource;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;public final class DBConnect {    static Log l

2009-12-09 17:14:00 1905

原创 httpclient 学习的几点经验

httpclinet 是一个java语言开源包 ,支持通过http协议下载各种文件,具有良好的配置性。详细见:http://hc.apache.org/httpclient-3.x/ 。下面具体例举使用的经验(httpclient3.1):1. 多线程    private static HttpClient hc = null;    hc = new HttpClient(ne

2009-12-09 16:20:00 828

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除