强化学习在业界的实际应用 - 阅读与思考

最新推荐文章于 2024-08-07 08:15:11 发布

weixin_30375247

最新推荐文章于 2024-08-07 08:15:11 发布

阅读量401

点赞数

文章标签：人工智能 c/c++

原文链接：http://www.cnblogs.com/yaoyaohust/p/11054750.html

版权

强化学习在业界的实际应用：http://www.oreilly.com.cn/ideas/?p=1482

泡沫破裂之后，强化学习路在何方？ https://zhuanlan.zhihu.com/p/41369224

强化学习的可重现问题

Deep Reinforcement Learning that Matters https://arxiv.org/abs/1709.06560

OpenAI Baseline https://openai.com/blog/openai-baselines-dqn/

- DRL 的可复现性危机

- 免模型强化学习的本质缺陷

RL 算法可以分为基于模型的方法（Model-based）与免模型的方法（Model-free）。前者主要发展自最优控制领域。通常先通过高斯过程（GP）或贝叶斯网络（BN）等工具针对具体问题建立模型，然后再通过机器学习的方法或最优控制的方法，如模型预测控制（MPC）、线性二次调节器（LQR）、线性二次高斯（LQG）、迭代学习控制（ICL）等进行求解。而后者更多地发展自机器学习领域，属于数据驱动的方法。算法通过大量采样，估计代理的状态、动作的值函数或回报函数，从而优化动作策略。

- 基于模型的方法，未来潜力巨大

基于模型的方法一般先从数据中学习模型，然后基于学到的模型对策略进行优化。学习模型的过程和控制论中的系统参数辨识类似。因为模型的存在，基于模型的方法可以充分利用每一个样本来逼近模型，数据利用率极大提高。基于模型的方法则在一些控制问题中，相比于免模型方法，通常有 10^2 级的采样率提升。此外，学到的模型往往对环境的变化鲁棒, 当遇到新环境时，算法可以依靠已学到的模型做推理，具有很好的泛化性能。

机器人和工业自动化

O'Reilly Artificial Intelligence Conference 2016 - New York, NY by O'Reilly Media, Inc.

https://www.oreilly.com/library/view/oreilly-artificial-intelligence/9781491973912/video282379.html

O'Reilly Artificial Intelligence Conference 2017 - San Francisco, CA by O'Reilly Media, Inc.

https://www.oreilly.com/library/view/oreilly-artificial-intelligence/9781491985250/video315002.html

Google数据中心优化后冷却耗能降40%，总耗能降15%

https://sustainability.google/projects/machine-learning/

https://googleblog.blogspot.com/2014/05/better-data-centers-through-machine.html

https://blog.google/outreach-initiatives/environment/deepmind-ai-reduces-energy-used-for/

Machine Learning Applications for Data Center Optimization

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/42542.pdf

Bonsai公司指出可考虑RL的场景（https://www.bons.ai/blog/ai-reinforcement-learning-strategy-industrial-systems）：

- 你正在使用模拟器，因为系统或过程对于通过试错来训练机器来说太复杂（或者物理上过于危险）；
- 你正在处理大状态空间；
- 你正寻求通过优化运营效率和提供决策支持来增强人类分析师和领域专家的能力。

数据科学和机器学习

Google AutoML探索神经网络结构：https://ai.googleblog.com/2017/05/using-machine-learning-to-explore.html

教育和培训

个性化学习：http://pact.cs.cmu.edu/pubs/New%20potentials%20for%20ITS-source.pdf

保健和医学

学习治疗策略：

https://www.ncbi.nlm.nih.gov/pubmed/28268938

https://mlhc17mit.github.io/slides/lecture13.pdf

优化医疗设备：

https://arxiv.org/abs/1704.06300

优化药物剂量：

https://www.ncbi.nlm.nih.gov/pubmed/28268938

文字，语音和对话系统

https://www.technologyreview.com/s/603613/siri-may-get-smarter-by-learning-from-its-mistakes/

传媒和广告

微软的决策服务：https://arxiv.org/pdf/1606.03966.pdf

且在Azure上开放：https://docs.microsoft.com/en-us/azure/cognitive-services/custom-decision-service/custom-decision-service-overview

实时竞价：https://arxiv.org/pdf/1701.02490.pdf

金融

未大规模使用，摩根声称使用

转载于:https://www.cnblogs.com/yaoyaohust/p/11054750.html

weixin_30375247

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫