- 博客(8)
- 资源 (3)
- 收藏
- 关注
原创 特征选择之信息增益
特征选择,即将各个特征的重要程度量化以后,再按一定的方式选择。以信息增益(IG)作为量化方法,即将各个特征能为分类系统带来多少信息作为特征选择的标准,带来的信息越多,特征就越重要。首先介绍一下信息增益,这里涉及到信息论中熵的概念。设有一个变量X,他的取值有n个,x1,x2,……,xn,每个值取得的概率为P1,P2,……,Pn,则变量X的熵可定义为:由上式可以看出,一个变量的变化
2013-06-28 15:51:12 1742
原创 聚类、文本分类、倾向性分析
最近项目和话题检测、倾向性分析相关,涉及到聚类、文本分类、文本倾向性分析技术,决定形成系统说明并将代码开放出来,作为记录。数据的话,由于和实验室项目相关,不好开放出来,可以使用搜狗的语料库(http://www.sogou.com/labs/dl/cs.html)。先大概介绍一下框架,涉及到具体的各个模块,在各个具体的文章中说明:聚类流程:1、文本预处理,包括分词、去停用词
2013-06-28 12:06:55 2306 2
原创 复杂背景,字符和背景亮度差异大的验证码识别
对于背景比较复杂,字符颜色明亮的验证码,我们可以通过HSL中的亮度来区分字符和背景。适用的验证码如下:可以看到上述的验证码,虽然背景很复杂,但是有一个特点就是背景的亮度普遍比字符的亮度低(不然背景复杂就看不到字符啦。)我们可以用HSL(色调,饱和度,亮度)来表示每一个像素点,然后对亮度进行累积。以第一幅图为例:通过对亮度做直方图,我们可以发现有四个峰值,
2013-01-23 15:36:18 1506 3
转载 简单验证码识别
验证码的功能一般是防止使用程序恶意注册、暴力破解或批量发帖而设置的。所谓验证码,就是将一串随机产生的数字或符号,生成一幅图片,图片里加上一些干扰象素(防止OCR),由用户肉眼识别其中的验证码信息,输入表单提交网站验证,验证成功后才能使用某项功能。学习验证码的破解/识别技术,不仅可以知道验证码的原理,而且可以让你知道怎样才能防止验证码被破解。最常见的验证码主要有以下几种:四位数字,随机的一数
2013-01-23 14:57:33 948 1
原创 tesseract训练
所需软件:(1)Tesseract 3.00(2)jTessBoxEditer,是一个java程序,安装之前需先安装jre。若不想装jre,也可以使用CowBoxer 1.01主要是用于box文件编辑生成第一个 box 文件将 Tesseract 解压到了 E:\tesseract-ocr 目录。然后在该目录中建立了一个 build 目录
2013-01-11 09:21:30 1717
原创 shape context字符识别
最近做字符识别,看了shape context,下载了源代码,进行修改,使其适用于我自己的图像主要是对数字识别进行了修改,将脚本中读取mat文件的部分,改为读取自己的图片。原始程序为:if ~(exist('train_data')&exist('label_train'))% load digit_100_train_easy; load digit_10
2013-01-09 18:01:02 1637
原创 matlab车牌号识别
识别主程序rotI = imread('2.jpg');if ndims(rotI) == 3 rotI = rgb2gray(rotI);endgmax = double(max(max(rotI)));gmin = double(min(min(rotI)));T=round(gmax-(gmax-gmin)/3);% T 为二值化的阈值rotI=im2bw(r
2013-01-09 17:18:59 3428 2
原创 RGB验证码分割
代码只贴出了边缘检测以后,至于切割出单个的字母,可根据验证码的实际情况进行切割。主要是聚类分割、中值滤波去噪,二值化,边缘检测。clc,clear;[I,map]=imread('0.jpg');figure(1);subplot(231);imshow(I,map);title('原始图像');[y,x,z]=size(I);d1=zeros(y,x);d2=d1;myI
2013-01-09 17:06:52 786
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人