项目人员:
1160300925 王卓
1160300630 范航明
1160300316 张雅舒
1160300920 陈浩楠
项目选择:
项目一,手写数字增强版
Github 仓库地址: https://github.com/mnist-plus/mnist_plus
项目计划:
- 项目整体为能部署在Web服务器上的应用.
- 将项目分为以下四个部分:可交互的UI界面,图像分割,模型对图像的处理和字符运算.
- 制作图像数据,进行图像分割,并且对图像进行训练.得到可训练的模型.
- 将可交互的UI界面与图像分割,模型进行整合,得到结果,交由字符运算处理.将结果返回给用户.
- 项目架构:
具体内容:
web服务器:
使用flask框架搭建web服务器,在127.0.0.1:8000端口开放.收到GET请求访问时返回算式输入界面,提交含有算式的表单(POST).收到POST请求时将图片交给其他部分识别,计算完成后将结果返回给浏览器.
制作数据集:
- 多位数字部分:拼接 mnist 数据,位长在随机范围内,相邻数字之间有随机的重叠部分 (重叠部分相加) 来模拟手写体多位数字 (连笔、间距不等...)。
- 运算符部分:先手写 +, -, x, ÷ 各十组数据,再使用 https://github.com/aleju/imgaug 提供的 imgaug 库来进行数据增强,每种操作符得到 2500 个样本,共 10000 组样本。使用的数据增强方法为:上下翻转,左右翻转,添加高斯模糊,改变中心视角 (PerspectiveTransform)。
模型:
网络模型为: conv_relu_pool (32, 3, 1) -> conv_relu_pool (64, 3, 1) -> fc_relu (512) -> fc_relu (512) -> fc_relu(14)
训练超参:learning_rate = 5e-4, batch_size = 32, epoch_num: 10
小组分工:
王卓:图像分割
范航明:制作数据集,准备模型
张雅舒:Web端
we are working :
[照片]