深度强化学习让AI 实现真正的“智能”,附Atari 2600 Video Pinball数据集下载资源

提到人工智能应用,你会想到什么?人脸识别、无人驾驶、智能推荐……

这期咱们就来聊一聊人工智能任务类型和你可能想不到的深度强化学习。

一、人工智能任务分类

人工智能任务类型可分为预测型、决策型2个大类。[1]

1. 预测型任务

预测型任务主要是根据输入的数据预测相应的输出,或者生成一些有价值的数据实例,他们分别对应着机器学习中的有监督学习和无监督学习系统。上述提到的人脸识别属于预测型任务。

2.决策型任务

决策型任务,是在动态的环境中采取行动或决策。与预测型任务不同,决策型任务并不以训练模型(Model)、输出结果为目的,而是通过智能体(Agent)与环境交互,收集外部反馈,改变自身状态,再根据自身状态对下一步的行动进行决策,在行动之后持续收集反馈的循环,不断获取奖励值,从而学习到“完成目标”的最优策略。

强化学习系统基本结构(图源:参考资料[2])

机器学习领域的一大核心主题是序列决策。该任务是在不确定的环境中根据经验决定所要执行的动作序列。序列决策任务涵盖广泛,有望对很多领域产生影响,比如机器人、医疗保健、智能电网、金融、自动驾驶汽车等等。

而序列问题可以用强化学习解决。

二、什么是深度强化学习

深度强化学习(Deep Reinforcement Learning,DRL)是指结合了深度学习的感知能力和强化学习的决策能力的新机器学习算法。

其主要利用深度神经网络进行价值函数和策略近似,从而使强化学习算法能够以端到端的方式解决复杂问题。[3]

为人工智能实现真正的“智能”提供效果良好的实践路径。

端到端深度强化学习示意(图源:http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-1.pdf)

三、深度强化学习落地场景

2013年,谷歌DeepMind 团队创造性地提出深度Q网络(Deep Q-Network,DQN)算法,通过深度强化学习,以Atari 2600中2D视频游戏作为实验环境,在大多数游戏中取得了超越人类玩家的成绩。[2]

自那之后,市面上涌现出了许多优秀的应用,比如颠覆围棋界的AlphaGo,让无数用户沉浸其中的抖音、淘宝等的推荐算法、战胜专业玩家的游戏AI 、通过模仿和强化学习来提高驾驶能力的Wayve自动驾驶平台……深度强化学习使得机器学习效果较传统方法有了“质”的飞跃,打开了人工智能的“潘多拉魔盒”。

目前,游戏AI、无人驾驶、交通灯调度、网约车派单、组合优化、推荐搜索系统、数据中心节能优化、对话系统、机器人控制、路由选路、军事场景均有深度强化学习应用。

四、深度强化学习带来的关键变化

深度学习与强化学习各有特点,将二者结合在一起会带来的改变:[1]

● 价值函数和策略变成了深度神经网络;

● 相当高维的参数空间;

● 难以稳定地训练;

● 容易过拟合;

● 需要大量的数据;

● 需要高性能计算;

● CPU(用于收集经验数据)和GPU(用于训练神经网络)之间的平衡。

五、深度强化学习数据集资源

OpenDataLab平台已经上架了经典的深度强化学习数据集——Atari 2600 Video Pinball,并提供了整齐的数据集信息、流畅的下载速度,欢迎大家体验。

Atari 2600 Video Pinball数据集预览(图源:OpenDataLab)

Atari 2600是Atari公司于1977年发布的视频游戏。它包含了一系列热门游戏,例如Breakout,Ms. Pacman 和Space Invaders。[4]

自从2013年 Mnih等人提出了DQN算法后,Atari 2600已成为测试新强化学习算法的标准环境。由于Atari 2600的高清视频输入(尺寸为210 x 160,频率为60 Hz)以及游戏之间的任务差异,它一直是具有挑战性的测试平台。 

Atari 2600环境最初是通过Arcade学习环境(ALE)提供的。OpenAI Gym封装了这些环境,以创建更加标准化的界面。OpenAI Gym提供59种Atari 2600游戏作为环境。研究人员普遍认为雅达利 2600 系列游戏是用于评定 RL 表现的一个很好的基准,因为每款游戏都足以代表一个实际的挑战,而整个系列包含非常多品种,提供足够的多样化。

可以通过OpenAI Gym框架中的Arcade学习环境来复制Atari 2600游戏环境。

· 开源地址:

https://www.endtoend.ai/envs/gym/atari/

· 数据集地址:

https://opendatalab.com/Atari_2600_Video_Pinball

参考资料:

[1]https://www.bilibili.com/video/BV1mC4y1H75i?spm_id_from=333.337.search-card.all.click

[2]郭勤. 基于深度强化学习的视频游戏决策模型研究与应用[D].江西理工大学,2018.

[3]尹舸帆. 深度强化学习中探索问题的研究和实现[D].北京邮电大学,2021.

[4]http://turingai.ia.ac.cn/app/detail/14

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值