强化学习在业界的实际应用:http://www.oreilly.com.cn/ideas/?p=1482
泡沫破裂之后,强化学习路在何方? https://zhuanlan.zhihu.com/p/41369224
- 强化学习的可重现问题
Deep Reinforcement Learning that Matters https://arxiv.org/abs/1709.06560
OpenAI Baseline https://openai.com/blog/openai-baselines-dqn/
- DRL 的可复现性危机
- 免模型强化学习的本质缺陷
RL 算法可以分为基于模型的方法(Model-based)与免模型的方法(Model-free)。前者主要发展自最优控制领域。通常先通过高斯过程(GP)或贝叶斯网络(BN)等工具针对具体问题建立模型,然后再通过机器学习的方法或最优控制的方法,如模型预测控制(MPC)、线性二次调节器(LQR)、线性二次高斯(LQG)、迭代学习控制(ICL)等进行求解。而后者更多地发展自机器学习领域,属于数据驱动的方法。算法通过大量采样,估计代理的状态、动作的值函数或回报函数,从而优化动作策略。
- 基于模型的方法,未来潜力巨大
基于模型的方法一般先从数据中学习模型,然后基于学到的模型对策略进行优化。学习模型的过程和控制论中的系统参数辨识类似。因为模型的存在,基于模型的方法可以充分利用每一个样本来逼近模型,数据利用率极大提高。基于模型的方法则在一些控制问题中,相比于免模型方法,通常有 10^2 级的采样率提升。此外,学到的模型往往对环境的变化鲁棒, 当遇到新环境时,算法可以依靠已学到的模型做推理,具有很好的泛化性能。
- 机器人和工业自动化
O'Reilly Artificial Intelligence Conference 2016 - New York, NY by O'Reilly Media, Inc.
https://www.oreilly.com/library/view/oreilly-artificial-intelligence/9781491973912/video282379.html
O'Reilly Artificial Intelligence Conference 2017 - San Francisco, CA by O'Reilly Media, Inc.
https://www.oreilly.com/library/view/oreilly-artificial-intelligence/9781491985250/video315002.html
Google数据中心优化后冷却耗能降40%,总耗能降15%
https://sustainability.google/projects/machine-learning/
https://googleblog.blogspot.com/2014/05/better-data-centers-through-machine.html
https://blog.google/outreach-initiatives/environment/deepmind-ai-reduces-energy-used-for/
Machine Learning Applications for Data Center Optimization
https://storage.googleapis.com/pub-tools-public-publication-data/pdf/42542.pdf
Bonsai公司指出可考虑RL的场景(https://www.bons.ai/blog/ai-reinforcement-learning-strategy-industrial-systems):
- 你正在使用模拟器,因为系统或过程对于通过试错来训练机器来说太复杂(或者物理上过于危险); - 你正在处理大状态空间; - 你正寻求通过优化运营效率和提供决策支持来增强人类分析师和领域专家的能力。
- 数据科学和机器学习
Google AutoML探索神经网络结构:https://ai.googleblog.com/2017/05/using-machine-learning-to-explore.html
- 教育和培训
个性化学习:http://pact.cs.cmu.edu/pubs/New%20potentials%20for%20ITS-source.pdf
- 保健和医学
学习治疗策略:
https://www.ncbi.nlm.nih.gov/pubmed/28268938
https://mlhc17mit.github.io/slides/lecture13.pdf
优化医疗设备:
https://arxiv.org/abs/1704.06300
优化药物剂量:
https://www.ncbi.nlm.nih.gov/pubmed/28268938
- 文字,语音和对话系统
https://www.technologyreview.com/s/603613/siri-may-get-smarter-by-learning-from-its-mistakes/
- 传媒和广告
微软的决策服务:https://arxiv.org/pdf/1606.03966.pdf
实时竞价:https://arxiv.org/pdf/1701.02490.pdf
- 金融
未大规模使用,摩根声称使用