强化学习在业界的实际应用 - 阅读与思考

强化学习在业界的实际应用:http://www.oreilly.com.cn/ideas/?p=1482

泡沫破裂之后,强化学习路在何方? https://zhuanlan.zhihu.com/p/41369224

 

  • 强化学习的可重现问题

Deep Reinforcement Learning that Matters https://arxiv.org/abs/1709.06560

OpenAI Baseline https://openai.com/blog/openai-baselines-dqn/

 

- DRL 的可复现性危机

- 免模型强化学习的本质缺陷

RL 算法可以分为基于模型的方法(Model-based)与免模型的方法(Model-free)。前者主要发展自最优控制领域。通常先通过高斯过程(GP)或贝叶斯网络(BN)等工具针对具体问题建立模型,然后再通过机器学习的方法或最优控制的方法,如模型预测控制(MPC)、线性二次调节器(LQR)、线性二次高斯(LQG)、迭代学习控制(ICL)等进行求解。而后者更多地发展自机器学习领域,属于数据驱动的方法。算法通过大量采样,估计代理的状态、动作的值函数或回报函数,从而优化动作策略。

- 基于模型的方法,未来潜力巨大

基于模型的方法一般先从数据中学习模型,然后基于学到的模型对策略进行优化。学习模型的过程和控制论中的系统参数辨识类似。因为模型的存在,基于模型的方法可以充分利用每一个样本来逼近模型,数据利用率极大提高。基于模型的方法则在一些控制问题中,相比于免模型方法,通常有 10^2 级的采样率提升。此外,学到的模型往往对环境的变化鲁棒, 当遇到新环境时,算法可以依靠已学到的模型做推理,具有很好的泛化性能。

 

  • 机器人和工业自动化

O'Reilly Artificial Intelligence Conference 2016 - New York, NY by O'Reilly Media, Inc.

https://www.oreilly.com/library/view/oreilly-artificial-intelligence/9781491973912/video282379.html

O'Reilly Artificial Intelligence Conference 2017 - San Francisco, CA by O'Reilly Media, Inc.

https://www.oreilly.com/library/view/oreilly-artificial-intelligence/9781491985250/video315002.html

 

Google数据中心优化后冷却耗能降40%,总耗能降15%

https://sustainability.google/projects/machine-learning/

https://googleblog.blogspot.com/2014/05/better-data-centers-through-machine.html

https://blog.google/outreach-initiatives/environment/deepmind-ai-reduces-energy-used-for/

Machine Learning Applications for Data Center Optimization

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/42542.pdf

 

Bonsai公司指出可考虑RL的场景(https://www.bons.ai/blog/ai-reinforcement-learning-strategy-industrial-systems):

- 你正在使用模拟器,因为系统或过程对于通过试错来训练机器来说太复杂(或者物理上过于危险);
- 你正在处理大状态空间;
- 你正寻求通过优化运营效率和提供决策支持来增强人类分析师和领域专家的能力。

 

  • 数据科学和机器学习

Google AutoML探索神经网络结构:https://ai.googleblog.com/2017/05/using-machine-learning-to-explore.html

 

  • 教育和培训

个性化学习:http://pact.cs.cmu.edu/pubs/New%20potentials%20for%20ITS-source.pdf

 

  • 保健和医学

学习治疗策略:

https://www.ncbi.nlm.nih.gov/pubmed/28268938

https://mlhc17mit.github.io/slides/lecture13.pdf

优化医疗设备:

https://arxiv.org/abs/1704.06300

优化药物剂量:

https://www.ncbi.nlm.nih.gov/pubmed/28268938

 

  • 文字,语音和对话系统

https://www.technologyreview.com/s/603613/siri-may-get-smarter-by-learning-from-its-mistakes/

 

  • 传媒和广告

微软的决策服务:https://arxiv.org/pdf/1606.03966.pdf

且在Azure上开放:https://docs.microsoft.com/en-us/azure/cognitive-services/custom-decision-service/custom-decision-service-overview

实时竞价:https://arxiv.org/pdf/1701.02490.pdf

 

  • 金融

未大规模使用,摩根声称使用

转载于:https://www.cnblogs.com/yaoyaohust/p/11054750.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值