手写数字识别增强版项目实践规划

项目人员:

1160300925 王卓

1160300630 范航明

1160300316 张雅舒

1160300920 陈浩楠

项目选择:

项目一,手写数字增强版

Github 仓库地址: https://github.com/mnist-plus/mnist_plus

项目计划:

  1. 项目整体为能部署在Web服务器上的应用.
  2. 将项目分为以下四个部分:可交互的UI界面,图像分割,模型对图像的处理和字符运算.
  3. 制作图像数据,进行图像分割,并且对图像进行训练.得到可训练的模型.
  4. 将可交互的UI界面与图像分割,模型进行整合,得到结果,交由字符运算处理.将结果返回给用户.
  5. 项目架构:

具体内容:

web服务器:

 使用flask框架搭建web服务器,在127.0.0.1:8000端口开放.收到GET请求访问时返回算式输入界面,提交含有算式的表单(POST).收到POST请求时将图片交给其他部分识别,计算完成后将结果返回给浏览器.

制作数据集:

  1. 多位数字部分:拼接 mnist 数据,位长在随机范围内,相邻数字之间有随机的重叠部分 (重叠部分相加) 来模拟手写体多位数字 (连笔、间距不等...)。
  2. 运算符部分:先手写 +, -, x, ÷ 各十组数据,再使用 https://github.com/aleju/imgaug 提供的 imgaug 库来进行数据增强,每种操作符得到 2500 个样本,共 10000 组样本。使用的数据增强方法为:上下翻转,左右翻转,添加高斯模糊,改变中心视角 (PerspectiveTransform)。

模型:

网络模型为: conv_relu_pool (32, 3, 1) -> conv_relu_pool (64, 3, 1) -> fc_relu (512) -> fc_relu (512) -> fc_relu(14)

训练超参:learning_rate = 5e-4, batch_size = 32, epoch_num: 10

小组分工:

王卓:图像分割

范航明:制作数据集,准备模型

张雅舒:Web端

we are working :

[照片]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值