又一个里程碑，谷歌发布最新研究，机器学习开辟新篇章！

最新推荐文章于 2025-03-27 13:02:44 发布

人工智能观察

最新推荐文章于 2025-03-27 13:02:44 发布

阅读量260

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/w26Y3t53EfqaI0MFeQBa/article/details/93263344

版权

640?wx_fmt=gif

智造观点

在谷歌最新的论文中，研究人员提出了“非政策强化学习”算法OPC，它是强化学习的一种变体，它能够评估哪种机器学习模型将产生最好的结果。数据显示，OPC比基线机器学习算法有着显著的提高，更加稳健可靠。

在谷歌AI研究团队一篇新发表的论文《通过非政策分类进行非政策评估》（Off-PolicyEvaluation via Off-Policy Classification）和博客文章中，他们提出了所称的“非政策分类”，即OPC（off-policy classification）。它能够评估AI的表现，通过将评估视为一个分类问题来驱动代理性能。

研究人员认为他们的方法是强化学习的一种变体，它利用奖励来推动软件政策实现与图像输入协同工作这个目标，并扩展到包括基于视觉的机器人抓取在内的任务。

640?wx_fmt=jpeg

“完全脱离政策强化学习是一种变体。代理完全从旧数据中学习，对于工程师来说这是很有吸引力的，因为它可以在不需要物理机器人的情况下进行模型迭代。”

Robotics at Google（专注机器学的的谷歌新团队）的软件工程师Alexa Irpan写道，“完全脱离政策的RL，可以在先前代理收集的同一固定数据集上训练多个模型，然后选择出最佳的那个模型。”

640?wx_fmt=png

但是OPC并不像听起来那么容易，正如Irpan在论文中所描述的，非政策性强化学习可以通过机器人进行人工智能模型培训，但不能进行评估。并且在需要评估大量模型的方法中，地面实况评估通常效率太低。

OPC在假设任务状态变化方面几乎没有随机性，同时假设代理在实验结束时用“成功或失败”来解决这个问题。两个假设中第二个假设的二元性质，允许为每个操作分配两个分类标签（“有效”表示成功或“灾难性”表示失败）。

另外，OPC还依赖Q函数（通过Q学习算法学习）来估计行为的未来总回报。代理商选择具有最大预期回报的行动，其绩效通过所选行动的有效频率来衡量（这取决于Q函数如何正确地将行动分类为有效与灾难性），并以分类准确性作为非政策评估分数。

640?wx_fmt=png

（左图为基线，右图为建议的方法之一，SoftOpC）

谷歌AI团队使用完全非策略强化学习对机器学习策略进行了模拟培训，然后使用从以前的实际数据中列出的非策略分数对其进行评估。

在机器人抓取任务时，他们报告OPC的一种变体SoftOPC在预测最终成功率方面表现最佳。假设有15种模型（其中7种纯粹在模拟中训练）具有不同的稳健性，SoftOPC产生的分数与与真正的抓取成功密切相关，并且相比于基线方法更加稳定可靠。

在未来的研究中，研究人员打算用“噪声”（noisier）和非二进制动力学来探索机器学习任务。“我们认为这个结果有希望应用于许多现实世界的RL问题，”Irpan在论文结尾写道。

近期热文：

面对人工智能的发展，人类未来将扮演怎样的角色？

谷歌Transformer大进化，机翻最强王者上线

无视争议！亚马逊：可向任何政府机构出售人脸识别技术

亚马逊推出AI新服务，开发门槛再度降低！

Facebook最新研究成果：AI更爱识别有钱人，准确率高出20%！

数字取证进入AI时代，又一类人要失业了？

从“人工智障”到“人工智能”，Siri开始说人话了！

AI翻译新思路，OBTranslate打破非洲城乡居民之间的沟通差距

谷歌AI再突破，Efficientnets有望成为计算机视觉任务的新基础！

640?wx_fmt=png

投稿、约访、合作，联系邮箱aiobservation@qq.com

添加微信aixiaozhijun，更多交流或进AI观察团

640?wx_fmt=gif

人工智能观察

博客等级

码龄8年

117
原创

33
点赞

141
收藏

68
粉丝

关注

私信

热门文章

最新评论

不写代码也能玩转AI，uber最新开源项目了解一下？
CSDN-Ada助手: 百度的paddlepadle库做的不错，不知道是否用过呢？
背了单词再也不怕忘，多邻国的AI要逆天！
CSDN-Ada助手: 在平时的科研学习中，如何看论文？如何评价工作？如何找idea？
下一个特斯拉在哪里？
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性。
AI项目失败率高达50%！人工智能离企业级应用还有多远？
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加条理清晰的目录；(3)起一个更符合文章内容的标题。
谷歌AI模型ML-Jam激发音乐家创作，人机合作或成未来大势！
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加条理清晰的目录；(3)起一个更符合文章内容的标题。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。