一直没时间写博客(其实是在咕咕咕),上周和队友完美解决了这个国赛题目,写下我们的方法
第一个问题,中文和英文的长条拼接。这是最简单的为题,首先建立一个图邻接矩阵,用一个纸片最右边的向量到另一个制片最左边向量的欧式距离当作这两个点的距离,然后跑旅行商问题,用模拟退火法优化,完美解决
第二个问题,中文文章和英文文章被分割成了11*19的碎片,要求拼接复原。首先将每个纸片的图像举证中的行中的所有元素进行或运算,这样就可以得到一个图片中字体的行的位置,然后将所有向量通过Kmean算法分类,然后再在每一类中经过第一问题的算法解决,中文完美解决,英文存在字母不等高的轻狂,所以我们需要给英文划四线三格,这里是一个瓶颈,卡了我们很长时间,最后通过众数的方法解决了这个问题
第三个问题,每个纸片有正反两面,并且哪个是正面,哪个是反面未知,需要复原,这道题的行高基本都差不多,没法去分类,我们写了一个手动分类器,每次计算机通过最优的匹配函数推荐,然后人工选正确的,看起来很蛮烦,418张图片15分钟人工就可做完,因为匹配函数的最优推荐经常是正确的,然后把每行拼起来后,再把每行根据旅行商算法还原。
代码放在了gayhub上:https://github.com/GipsyU/CUMCM2013B
讲的不是很清楚(其实是因为懒得写)
今年数模加油(其实我只想咕咕咕)