一次不成功的深度学习实践 - 微信跳一跳


作者 | 张宏伦


最近微信的跳一跳小程序火了一把,所以前天也更新了微信玩了几盘,最多手动到200左右就不行了。



后来准备用代码写个辅助工具,上Github一查,已经有人做出来了,17年12月29号的项目,不到5天差不多5K的stars,以后还会更多,简直可怕。(https://github.com/wangshub/wechat_jump_game)


具体思路都差不多:


  • 用adb调试手机,获取截图;

  • 从截图中识别棋子和目标块的中心点位置;

  • 根据距离计算长按时间,系数和屏幕分辨率相关;

  • 用adb模拟长按,完成跳跃。


唉,多么可惜,错过了一个好项目。


既然别人已经实现了,那就尝试点不一样的,用 深度学习 解决一下。


基本思路


基本流程类似,唯一的区别在于如何获取棋子和目标块的中心位置。


假如长按时间只取决于棋子和目标块的水平位置,那么只需要知道它们水平方向上的坐标即可。


可以看作一个 物体检测 问题,检测出截图中的棋子等物体,这里假设共包含七类物体:


  • 棋子:chess

  • 彩蛋块:包括污水 waste、魔方 magic、商店 shop、音乐盒 music

  • 普通块:包括矩形块 rect、圆形块 circle


模型实现


我手动标注了500张截图,基于ssd_mobilenet_v1_coco模型和TensorFlow物体检测API,训练好的模型跑起来是这么个结果。



可以看到截图中的棋子、魔方、矩形块、圆形块都被检测了出来,每个检测结果包括三部分内容:


  • 物体位置,用矩形标注,对应四元组 ymin、xmin、ymax、xmax;

  • 物体类别,为以上七类中的一种;

  • 检测置信度,越高说明模型对检测结果越有把握。


这不仅仅是简单的规则检测,而是 真正看到了截图中共有哪几个物体,以及每个物体分别是什么。


所以接下来,就只需从检测结果中取出棋子的位置,以及最上面一个非棋子物体,即目标块的位置。


有了物体的边界轮廓,取中点即可得到棋子和目标块的水平坐标,这里进行了归一化,即屏幕宽度为1,距离在0至1之间。然后将距离乘以一个系数,作为长按时间并模拟执行即可。


运行结果


看起来很不错,实际跑分结果如何呢?


大概只能达到几百分,问题出在哪?


主要是标注数据太少,模型训练得不够充分,所以检测结果不够准确,有时候检测不出棋子和目标块,而一旦出现这类问题,分数必然就断了。


尝试了以下方法,将一张截图朝不同的方向平移,从而得到九张截图,希望提高检测结果的召回率,但仍然有检测不出来的情况,也许只有靠更多的标注数据才能解决这一问题。


规则检测


模型训练了20W轮,依旧存在检测不出来的情况,郁闷得很,干脆也写一个基于规则的 简单版代码 好了。


花了不到20分钟写完代码,用OpenCV提取边缘,然后检测棋子和目标块的水平中心位置,结果看起来像这样。



事实证明,最后跑出来的分数,比之前的模型要高多了……


说好的深度学习呢?



总结


面对以下情况时,基于人工经验定义规则,比用深度学习训练模型要省力、有效很多:


  • 问题本身比较简单,不需要复杂的抽象;

  • 标注数据比较有限,难以充分训练模型;

  • 错误惩罚很高,对错误不能容忍。即便模型在99%的情况下能完美运行,1%的错误立马让游戏直接结束了,此时反而不如hard code的规则靠谱。


当然,如果大家能一起努力,多弄些标注数据出来,说不定还有些希望。


代码在Github上:https://github.com/Honlan/wechat_jump_tensorflow


不说了,我继续刷分去了,用后面写的不到一百行的代码…


原文地址:

https://zhuanlan.zhihu.com/p/32553763



热文精选


2018 年了,该不该下定决心转型AI呢?

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法?这篇文章做到了

盘点深度学习一年来在文本、语音和视觉等方向的进展,看强化学习如何无往而不利

先搞懂这八大基础概念,再谈机器学习入门!

这三个普通程序员,几个月就成功转型AI,他们的经验是...

干货 | AI 工程师必读,从实践的角度解析一名合格的AI工程师是怎样炼成的

AI校招程序员最高薪酬曝光!腾讯80万年薪领跑,还送北京户口

详解 | 如何用Python实现机器学习算法

经验 | 如何高效学Python?

Twitter大牛写给你的机器学习进阶手册


基于强化学习的跳一跳游戏 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一。它主要用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的特点在于没有监督数据,只有奖励信号。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。 强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。强化学习问题在信息论、博弈论、自动控制等领域有得到讨论,被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。 强化学习在工程领域的应用也相当广泛。例如,Facebook提出了开源强化学习平台Horizon,该平台利用强化学习来优化大规模生产系统。在医疗保健领域,RL系统能够为患者提供治疗策略,该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。 总的来说,强化学习是一种通过智能体与环境交互,以最大化累积奖励为目标的学习过程。它在许多领域都展现出了强大的应用潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值