设计中的手写识别(输入法)思路 -- 上篇

现在软件和硬件越来越趋向于融合,用户的输入不免的从传统的键盘鼠标扩大到触摸板,声音甚至指纹和视频

这次讨论的是如何识别手写的问题,

 

所谓一万个人有一万个王羲之,书法与人的灵魂一样,都是很玄妙的东西

查找了很多资料未果,于是,求人不如求己

 

手写输入体现在软件上,最大的问题有如下几个:

1.粗细

输入者,可能拿笔,也可能拿手指,甚至可能拿鸟毛去画,这是很难控制的,所以对所的图像的识别必须考虑笔画的粗细问题.


2.拉伸

输入者可能只在画布的某个角落写字,遇到特定人群,比如小屁孩和小姑娘,他们的天性都是小笔小书,很细腻的写,相当于文字被缩小了,虽然形状可能是一样的


3.偏移

有些人写字不喜欢居中,总是偏向一边,这种情况时有发生,事实上,偏移几乎总是存在的,几乎没人能够写绝对居中的文字.


4.扭曲

由于各种条件限制,这也是很难避免的情况,比如小学生写8字总是睡着的,有些人写字总是头小屁股大等等

 

解决上面的问题,我设计下面四种算法:

1.最近值法

比较两个图像相同点的像素差异数,累计差异最小的为最接近的图形,对应的字符之一就是待选的字符

最近值可以应对大多数情况,兼容性非常好,但是精度比较差,需要大量的笔迹训练才能得到优秀的识别效果

 

2.边界检测

这种算法是为了对付缩放设计的,只要框住点阵范围,结合骨架计算就可以得出其对应满屏的字符特征,这个的算法相对比较容易一些

 

2.连同连异

我暂且给这么一个名称吧,因为大多数手写识别并不公布他们的算法,我就自己拟定一个算法名称,毕竟我自己想出来的

这是针对偏移设计的算法,偏移之后,大多数区域的还是相似甚至相同的,连续相同与便宜紧密关联

同时,此算法可以弥补最近值算法精度上的不足,比如下面两幅图像

 和

注意第一幅右边有一半是白色的,运用最近值算法,此区域的匹配率是100%!而采用连同连异计算,得到的匹配率是50%,相对来说后者是更科学的.

作为我主打的算法,呵呵,有必要做详细一点的描述,我拿QQ的手写输入法来说吧,QQ手写应该是方向识别(笔画识别的),我们输入正常输入一个中字

效果很好,正常识别出来,但是我把笔画逆过来写,看看结果

得到的结果完全风牛马不相及,甚至莫名其妙的出现了个"奸"字,奇哉怪也了吧,所以笔画或方向识别是有缺陷的,而且这种缺陷一旦放到文化程度较低的人群

就会被放大N倍,比如农民伯伯写口字都是画一个圈的,而且怎么画都有,更悲催的,把一字从右向左写,看下效果:

简直就是,怎么说呢,以前骂过的话又浮上心头,什么放烟花,包公车的,都想再骂过一遍了

应用我的DEMO试一下,首先是直接打印幼圆字体进行识别:

这个简单,很多OCR软件都可以识别打印字体,这里识别率的匹配是100%!,同时由于最近值算法的缺陷,次要的申等并没有识别出来

在用手写一遍,看看效果:

没有识别出来,因为从来没有训练过这个字,因此训练一下,再用类似的写法书写并识别:

识别良好,重新入一遍看:

实际运行过不错,现在所缺乏的就是训练了,一旦训练一遍,类似的手写都能够优秀的识别出来,此外值得炫耀一下的是,训练完全相同的写法仅会加深对此写法的偏好

训练任何写法都不会增加库文件的大小,只会修正库文件的特征字段,DEMO在合适的时候上传给大家,看下篇吧

 

3.笔画识别

这就跟QQ拼音之类的有点类似了,虽然有上面的缺点,但是其优点也正好针对扭曲问题提供了完美的解决方案,但是我的做法并不是去处理笔画,以避免步QQ的后尘

我只处理一点的笔画特征,比如第一笔或最长的一笔等,一笔下去始终两点很容易得到并计算正切值,这些特征就可以确定一类字符,应对扭曲的问题

 

设计一种新的文件格式是针对以上所设计算法的,我暂定名称是标准点阵文件Standard Lattice File(*.slf),被我老表名字的拼音首字母踩狗屎运撞上了,一模一样

也许有人会说,坑爹的TX居然有这种漏洞,其实不是每个人都像我这样整天找漏洞和缺陷的,也是我对这种东西比较敏感吧,追求完美让我失去很多东西

 

具体下篇我会把DLL和相关API,类型定义和调用约定发布上来,需要的LD可以拿去用用,我先睡一觉
  • 6
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
实验目的: 使用卷积神经网络(CNN)实现对MINIST手写数字0-9的识别,掌握CNN在图像识别任务的应用。 实验步骤: 1. 数据集准备 使用MINIST手写数字数据集,该数据集包含60000个训练样本和10000个测试样本,每个样本都是28x28像素的灰度图像。可以使用PyTorch自带的torchvision.datasets.MNIST类进行数据集的加载。 2. 数据预处理 对数据集进行预处理,包括数据增强和归一化操作。数据增强可以提高模型的泛化能力,常见的数据增强方式有旋转、平移、缩放、翻转等。归一化操作可以将像素值缩放到[0,1]之间,有利于训练模型。 ```python transform_train = transforms.Compose([ transforms.RandomRotation(10), transforms.RandomAffine(0, shear=10, scale=(0.8,1.2)), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)) ]) transform_test = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)) ]) trainset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform_train) trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True, num_workers=2) testset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform_test) testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False, num_workers=2) ``` 3. 模型设计与训练 使用PyTorch搭建卷积神经网络模型,对手写数字图像进行分类。具体网络结构如下: ```python class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.conv1 = nn.Conv2d(1, 32, 3, 1) self.conv2 = nn.Conv2d(32, 64, 3, 1) self.dropout1 = nn.Dropout2d(0.25) self.dropout2 = nn.Dropout2d(0.5) self.fc1 = nn.Linear(9216, 128) self.fc2 = nn.Linear(128, 10) def forward(self, x): x = self.conv1(x) x = F.relu(x) x = self.conv2(x) x = F.relu(x) x = F.max_pool2d(x, 2) x = self.dropout1(x) x = torch.flatten(x, 1) x = self.fc1(x) x = F.relu(x) x = self.dropout2(x) x = self.fc2(x) output = F.log_softmax(x, dim=1) return output ``` 模型训练过程: ```python device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") net = Net() net.to(device) criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(net.parameters(), lr=0.01, momentum=0.9) for epoch in range(10): # loop over the dataset multiple times running_loss = 0.0 for i, data in enumerate(trainloader, 0): # get the inputs; data is a list of [inputs, labels] inputs, labels = data[0].to(device), data[1].to(device) # zero the parameter gradients optimizer.zero_grad() # forward + backward + optimize outputs = net(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() # print statistics running_loss += loss.item() if i % 100 == 99: # print every 100 mini-batches print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / 100)) running_loss = 0.0 print('Finished Training') ``` 4. 模型测试 使用测试集对训练好的模型进行测试,并计算准确率。 ```python correct = 0 total = 0 with torch.no_grad(): for data in testloader: images, labels = data[0].to(device), data[1].to(device) outputs = net(images) _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() print('Accuracy of the network on the 10000 test images: %d %%' % ( 100 * correct / total)) ``` 实验结果: 使用上述模型,在MNIST数据集上进行训练,最终得到的准确率为98.94%。可以看出使用CNN实现手写数字识别是非常有效的。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值