自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (3)
  • 收藏
  • 关注

原创 特征选择之信息增益

特征选择,即将各个特征的重要程度量化以后,再按一定的方式选择。以信息增益(IG)作为量化方法,即将各个特征能为分类系统带来多少信息作为特征选择的标准,带来的信息越多,特征就越重要。首先介绍一下信息增益,这里涉及到信息论中熵的概念。设有一个变量X,他的取值有n个,x1,x2,……,xn,每个值取得的概率为P1,P2,……,Pn,则变量X的熵可定义为:由上式可以看出,一个变量的变化

2013-06-28 15:51:12 1742

原创 聚类、文本分类、倾向性分析

最近项目和话题检测、倾向性分析相关,涉及到聚类、文本分类、文本倾向性分析技术,决定形成系统说明并将代码开放出来,作为记录。数据的话,由于和实验室项目相关,不好开放出来,可以使用搜狗的语料库(http://www.sogou.com/labs/dl/cs.html)。先大概介绍一下框架,涉及到具体的各个模块,在各个具体的文章中说明:聚类流程:1、文本预处理,包括分词、去停用词

2013-06-28 12:06:55 2306 2

原创 复杂背景,字符和背景亮度差异大的验证码识别

对于背景比较复杂,字符颜色明亮的验证码,我们可以通过HSL中的亮度来区分字符和背景。适用的验证码如下:可以看到上述的验证码,虽然背景很复杂,但是有一个特点就是背景的亮度普遍比字符的亮度低(不然背景复杂就看不到字符啦。)我们可以用HSL(色调,饱和度,亮度)来表示每一个像素点,然后对亮度进行累积。以第一幅图为例:通过对亮度做直方图,我们可以发现有四个峰值,

2013-01-23 15:36:18 1506 3

转载 简单验证码识别

验证码的功能一般是防止使用程序恶意注册、暴力破解或批量发帖而设置的。所谓验证码,就是将一串随机产生的数字或符号,生成一幅图片,图片里加上一些干扰象素(防止OCR),由用户肉眼识别其中的验证码信息,输入表单提交网站验证,验证成功后才能使用某项功能。学习验证码的破解/识别技术,不仅可以知道验证码的原理,而且可以让你知道怎样才能防止验证码被破解。最常见的验证码主要有以下几种:四位数字,随机的一数

2013-01-23 14:57:33 948 1

原创 tesseract训练

所需软件:(1)Tesseract 3.00(2)jTessBoxEditer,是一个java程序,安装之前需先安装jre。若不想装jre,也可以使用CowBoxer 1.01主要是用于box文件编辑生成第一个 box 文件将 Tesseract 解压到了 E:\tesseract-ocr 目录。然后在该目录中建立了一个 build 目录

2013-01-11 09:21:30 1717

原创 shape context字符识别

最近做字符识别,看了shape context,下载了源代码,进行修改,使其适用于我自己的图像主要是对数字识别进行了修改,将脚本中读取mat文件的部分,改为读取自己的图片。原始程序为:if ~(exist('train_data')&exist('label_train'))% load digit_100_train_easy; load digit_10

2013-01-09 18:01:02 1637

原创 matlab车牌号识别

识别主程序rotI = imread('2.jpg');if ndims(rotI) == 3 rotI = rgb2gray(rotI);endgmax = double(max(max(rotI)));gmin = double(min(min(rotI)));T=round(gmax-(gmax-gmin)/3);% T 为二值化的阈值rotI=im2bw(r

2013-01-09 17:18:59 3428 2

原创 RGB验证码分割

代码只贴出了边缘检测以后,至于切割出单个的字母,可根据验证码的实际情况进行切割。主要是聚类分割、中值滤波去噪,二值化,边缘检测。clc,clear;[I,map]=imread('0.jpg');figure(1);subplot(231);imshow(I,map);title('原始图像');[y,x,z]=size(I);d1=zeros(y,x);d2=d1;myI

2013-01-09 17:06:52 786

微软面试智力题(附答案)

微软历年面试智力题,附详细解答思路及答案。

2014-04-16

短文本聚类技术调研

短文本聚类各种相关算法的说明,比较,调研。

2013-01-05

车牌号字母

用于做车牌号识别的训练数据,包括中文、英文大写、数字

2013-01-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除