2020文献积累:计算机 [1] Reinforcement learning in Economics and Finance

Reinforcement learning in Economics and Finance

文章链接:
Reinforcement learning in Economics and Finance

  • March 2020
  • 整理:程琪皓
  • 2020年10月30日~2020年10月31日

1. Introduction

1.1 An Historical Overview

  • 第一部分主要讲解了reinforcement learning 的一些历史,感觉自己写文章的时候可以参考其中的一些东西:
    • 强化学习有/无监督学习最最显著的区别:leaning follows from feedback and experience, not from some fixed sample of data.
    • Thordike or Skinner – reinforcement learning in the context of behavioral psychology,ethology and biology
      • 联想&补充
      1. 关于skinner这个人,之前自学认知心理学的时候有过一面之缘,他给人一种非常radical的感觉~)
      2. ethology:(a). The scientific study of animal behavior, especially as it occurs in a natural environment. (b). The study of human ethos(性格气质) and its formation.
      3. 注意: ethology 这个词和etymology(词源学)的区分,ethology可以和ethos(民族精神)联系记忆,而ethos盲猜和ethics同源,这样这几个词就全部记住啦~
  • 这篇文献通过一只猫的例子,讲了强化学习当中一些非常重要的概念:
    1. 利用新的探索(exploration)+已有的经验(exploitation)进行学习, 这里联系经验回放算法
    2. 对于达到最终目的之后得到的reward如何在过程中的每一个action进行分配的问题:credit assignment
      后面简单的将了一些最最最最最最最基本的reinforcement leanring当中的概念,水了一些篇幅

1.2 From Machine to Reinforcement Learning

  • 监督学习的语境下,机器学习是一个静态的过程,给定数据集,我们学出一个可能的模型, 对于判别模型,典型的就是binary的输出(各位只要有点点基础知识的,可以和我一起在脑子里放一遍minst数据集的区分,GNN对抗神经网络等等等等的小电影…)
  • 对于一个超市里的店员而言,零售商们通过一些有关于他们外貌、性别、购物车里的东西(这一个好妙!!!)给顾客推荐相应的产品,顾客选择还是不买
    • 我补充一下:这里如果要写代码的话,action space应该是:`
action_space = ["买当前商品""不买但继续购物""stop shopping and check out"]
  • 注意到这里其实一共有三个选项,并且这个模型非常的heuristic:这不是对抗神经网络(GNN)又是什么?!
  • Ideas No.1 (realized?)
  • 后面讲的内容尽管简单,但是给我一种感觉:reinforcement learning之于machine leaning好像多了一个时间的维度,更加关注cause and effect, 而不是静态的数据集。仅仅就是这一句话,某种程度上带来了reinforcement learning和经济学的交叉.
  • 文献该段中我最最欣赏的是这一句话:

As we will see in the article,models in sequential decision making as long history in economics, even if rarely mentioned in the computational science literature。

1.3 Agenda

  • 看完全篇以后自己会重新写一个,这里就不再多赘述。

2. From Machine to Reinforcement Learning

2.1 Machine Learning principles

  • “在了解Online learning之前需要了解regret 分析这个概率,regret指的是,Online learning中每次学习的误差减去使用用当前为止的最优函数而产生的误差的平均值,当然我们希望regret越小越好。”
    —— 摘自https://www.cnblogs.com/llphhl/p/5808431.html

在机器学习当中,我们的目标是找到这样的一个函数 f ∈ F f\in\mathscr{F} fF使得最后定义的loss函数取到最小值,The risk is the expectation of the loss: R ( f ) = E [ l ( f ( X ) , Y ) ] R(f) =E[l(f(X),Y)] R(f)=E[l(f(X),Y

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值