Towards Smart Transportation System:A Case Study on the Rebalancing Problem of Bike Sharing System Based on Reinforcement Learning
作者:
Li, GF (Li, Guofu) ; Cao, N (Cao, Ning) ; Zhu, PJ (Zhu, Pengjia) ; Zhang, YW (Zhang, Yanwu) ; Zhang, YY (Zhang, Yingying) ; Li, L (Li, Lei) ; Li, QY (Li, Qingyuan) ; Zhang, Y (Zhang, Yu)
期刊:IGI Glob ,链接
doi: 10.4018/JOEUC.20210501.oa3
关键字:Bike Sharing System, Machine Learning, Optimal Transportation Problem, Rebalancing Problem, Reinforcement Learning, Smart Transportation
摘要
智能交通系统是一个跨领域的研究课题,涉及管理大规模系统的组织和享受这些服务的个人最终用户。基于机器学习的算法的最新进展使其能够或改进了广泛的应用,因为它在以最少的领域知识和强大的泛化能力对复杂问题进行精确预测方面具有优势。这些优良的特性意味着在构建智能交通系统方面的潜力。本文研究了如何使用深度强化学习deep reinforcement learning(DRL)来优化现代自行车共享系统中的操作策略。作为案例研究,作者通过展示基于策略梯度的强化学习方法来解决自行车共享系统中的再平衡问题,展示了现代DRL的潜在威力,该方法可以同时改善用户体验和降低运营成本。
1. INTROdUCTION
新出现的智能(或智能)交通系统概念为作为最终用户的个人公民和作为服务提供商的大型组织带来了好处。构建智能交通系统涉及物理基础设施建设、完善法律法规、完善管理和运营政策等(Albino、Berardi和Dangelico,2015)。因此,这类服务需要的不仅仅是相关对象的网络连接,而在软件和管理层(Zhang,Thomas,Brussel&van Maarseveen,2016)系统内部构建的智能也是至关重要的。例如,优化自行车共享系统可能需要一长串决策,比如自行车站的最佳数量和位置(Lin&Yang,2011)。
智能交通系统最近的成就主要归功于物联网技术的发展,物联网技术将分散的物理物体连接成一个大规模网络。这种网络的规模吸引了BigData研究领域的兴趣(Hashem,Chang,Anuar等人,2016;Chourabi,Nam,Walker等人,2012)。基于这些基础设施,现在的问题是如何实现“智能”行为。依靠技术来实现“智能”的传统方法需要在问题建模和变量选择方面进行细致的人工劳动(Villani,2008;Zhang,Wang,et al,2011;Lippi,Bertini&Frasconi,2013),这很难概括和传递。相比之下,基于现代深度学习的方法由于其通用函数逼近和端到端学习的能力,能够统一解决各种问题(Lecun,Bengio&Hinton,2015),因此提供了一个弥补这一缺失的绝佳机会。在本文中,我们特别关注智能交通系统中的策略优化问题,这对用户体验和组织运营成本都至关重要。
强化学习Reinforcement learning(RL)作为机器学习的一个分支,旨在优化长期总体回报,并已在优化交通系统中进行了研究(Arel,Liu,Urbanik&Kohls,2010;Khamis&Gomaa 2014;Zolfpour Arokhlo,Selamat,Hashim&Afkhami,2014)。本文认为,DRL 在优化大型交通系统中的资源分配和调度方面具有特殊优势,并在自行车共享系统 bike sharing system(BSS)的再平衡问题上进行了测试(Demaio,2009;Shaheen,Guzman&Zhang,2010)。与之前的方法,如最优运输 Optimal Transportation(OT)(Villani,2008;Courty,Flamery,Remi等人,2015)或提货和交付问题Pickup and Delivery Problem (PDP)(Savelsbergh,Sol&1995)相比,RL方法只需要很少的环境动力学先验知识,更灵活地满足不同的目标。
2. BACKGROUNd
智能交通服务的一个新兴类别基于共享经济的理念,以自行车共享系统(BSS)为代表。自行车共享系统是一种服务,在这种服务中,个人用户可以以相对较低的价格临时共享自行车。它最近的成功主要是由物联网和无线传感器网络推动的现代跟踪技术推动的(O’Brien,Cheshire&Batty,2014)。同时,大系统的管理政策也对服务的各个方面产生了巨大的影响,尤其是其运营成本。
The Rebalancing Problem
为了了解用户租用和归还行为的特点,我们探索了移动BSS开放数据存储库的数据,该存储库由北京市大约两周的使用跟踪日志组成。图1显示了用户租赁请求和退货操作的总体分布。我们可以从图1中推断出一些明显的模式:
- 有几个优秀的枢纽占据了整个群体的很大一部分,用于租金请求和退货行动。假设这些枢纽应符合城市地标(例如,购物中心、地铁线路终端等)(图2)。
- 请求中心request hubs的位置通常与返回中心 return hubs的位置非常接近,但并不完全相同。
研究人员建议,有两种广泛的方法来对自行车共享系统中的再平衡问题进行分类(Contardo、Morency和Rousseau,2012年):
- . 根据执行重新定位行为的实体类型:
a. Operator-based rebalancing 由运行服务的组织进行
b. User-based rebalancing 由最终用户进行,在某种激励下将自行车返回到请求的附近位置;
- 根据重新定位的时间:
a. Static rebalancing 在系统相对静止时进行,例如在午夜
b. Dynamic rebalancing: 在业务仍在运行且自行车分布不断变化的白天进行。
在本文中,我们对基于操作员的静态再平衡场景的简单情况感兴趣,因此分布的日间行为更有意义。我们将时间窗口缩短到一个较短的时段,以研究图3所示的每日租金和回报之间的差距。类似的模式很容易发现。这使我们能够对解决再平衡问题形成一些基本的直觉。
可能有无数种方法来重新平衡BBS存储库状态,每种方法都有不同的成本和回报。定义“良好的再平衡计划”的最重要的一点是用户满意度和成本的平衡,这样用户在必要时几乎总能在附近找到可用的自行车,而移动自行车所需的运输成本是可以接受的。
3. EXISTING METHOdS
Optimal Transportation Theory
假设我们对自行车租金和回报的分配有很好的了解。然后,制定问题的最自然的方式是找到一个运输计划,以最小的成本将收益分配推到租金分配,这正是经典最优运输的研究目标。最佳运输(OT)理论首先由Gaspard Monge(Villani,2008)正式提出,用于解决一类规划问题,其目的是找到以最小的努力将一堆土移动到坑中的最佳方法。这个问题的解决方案与运输领域内外的一大类问题有关。
Monge将此问题表述为,给定两个基于度量空间
Ω
S
\Omega_S
ΩS的概率度量
μ
S
\mu_S
μS和基于度量空间
Ω
T
\Omega_T
ΩT的概率度量
μ
T
\mu_T
μT,找到一个映射
T
:
Ω
S
→
Ω
T
T:\Omega_S \to \Omega_T
T:ΩS→ΩT,去最小化总的移动成本moving cost:
其中
Ω
S
∈
R
d
S
\Omega_S \in R^{d_S}
ΩS∈RdS,
Ω
T
∈
R
d
T
\Omega_T \in R^{d_T}
ΩT∈RdT, 和
c
:
Ω
S
×
Ω
T
→
[
0
,
∞
]
c : \Omega_S \times \Omega_T \to [0, \infty ]
c:ΩS×ΩT→[0,∞]是一个成本函数cost function.
Monge公式的一个主要缺陷是它的非凸性和难处理性。此外,在Monge的公式中,映射的存在并不总是得到保证(例如,当
µ
s
µ_s
µs是Dirac而
µ
T
µ_T
µT不是Dirac,或者
µ
s
µ_s
µs和
µ
T
µ_T
µT在不同数量的Dirac上支持时)。后来,Kantorovitch的OT问题版本通过使用具有凸松弛的公式修正了这些缺陷,并可以表示为发现
Ω
S
Ω_S
ΩS和
Ω
T
Ω_T
ΩT:
其中
π
\pi
π是所有联合概率在
P
(
Ω
S
×
Ω
T
)
P(\Omega_S\times \Omega_T)
P(ΩS×ΩT)的集合,是边界
μ
S
\mu_S
μS和
μ
T
\mu_T
μT的联合分布。
Monge问题
- 参考资料: 《Monge问题,Kantoroich,对偶理论和Brenier极分解》
有两个完备可分的空间X,Y ,定义概率测度 μ ∈ P ( X ) , v ∈ P ( Y ) 满 足 \mu \in \mathcal{P}(X),v\in \mathcal{P}(Y) 满足 μ∈P(X),v∈P(Y)满足\mu(X)=v(Y)$ ,以及传输代价 c : X × Y → [ 0 , + ∞ ] c :X\times Y \to [0,+\infty] c:X×Y→[0,+∞] ,需要找到一个映射 T : X → Y T:X\to Y T:X→Y ,诱导推前映射 T # μ = v T_{\#\mu}=v T#μ=v.
使得 ∀ A ⊂ Y \forall A \subset Y ∀A⊂Y 有 μ ( T − 1 ( A ) ) = v ( A ) \mu(T^{-1}(A))=v(A) μ(T−1(A))=v(A) ,满足传输代价 C ( T ) : = ∫ X c ( x , T ( x ) ) C(T):=\int_X c(x,T(x)) C(T):=∫Xc(x,T(x)) 最小,
该问题用数学语言描述为: ( M P ) : i n f { M ( T ) : = ∫ X c ( x , T ( x ) ) d μ : T # μ = v } (MP): inf\{M(T):= \int_X c(x,T(x))d\mu :T_{\#\mu}=v\} (MP):inf{M(T):=∫Xc(x,T(x))dμ:T#μ=v}.x ∈ X , T ( x ) ∈ Y , c ( X × Y ) x \in X, T(x) \in Y, c(X \times Y) x∈X,T(x)∈Y,c(X×Y)为传输代价。 ∫ X \int_X ∫X是对传输代价求积分(求和)
KL 散度,是一个用来衡量两个概率分布的相似性的一个度量指标。由此,Monge问题的解,实际上就是最优传输映射,
我们将这个最小的传输代价定义为Wasserstein距离:$W_c(T)=inf_{T_{#\mu=v}}C(T) ,
这个距离可以用于衡量两个分布之间的距离,这个衡量比《KL散度》更为精细.
考虑三个分布 ,由于 μ , v , w \mu ,v,w μ,v,w 的《支撑集》没有相交,因此他们的KL散度为0,同理 μ , w \mu,w μ,w 的KL散度也为0,但是如果衡量Wasserstein距离可以发现,将 μ \mu μ 搬运成 v v v 的代价小于将 μ \mu μ 搬运成 w w w 的代价
Monge问题求解极为困难,Kantoroich将它问题进行放松,将最优传输问题放松为最优传输方案:
左图为Monge问题,右图为Kantoroich问题 对于Monge问题,由于需要求解一个映射,实际上只能允许多对一(或者一对一),Kantoroich问题将映射放松, 允许一对多,从而将原来问题进行简化。我们定义Kantoroich问题:定义联合概率分布 γ ∈ P ( X × Y ) \gamma \in \mathcal{P}(X \times Y) γ∈P(X×Y) ,其边缘概率密度定义为推前映射 ( π x ) # = ∫ Y γ ( x , y ) d y (\pi_x)_{\#}=\int_Y \gamma(x,y)dy (πx)#=∫Yγ(x,y)dy ,同理 ( π y ) # = ∫ X γ ( x , y ) d y (\pi_y)_{\#}=\int_X \gamma(x,y)dy (πy)#=∫Xγ(x,y)dy ,他们将概率测度 γ \gamma γ ,分别推前成 μ , v \mu,v μ,v , 写为 ( π x ) # γ = μ , ( π y ) # γ = v (\pi_x)_{\#}\gamma=\mu,(\pi_y)_{\#}\gamma=v (πx)#γ=μ,(πy)#γ=v ,即 π ( μ , v ) = { γ ∈ P ( X × Y ) : ( π x ) # γ = μ , ( π y ) # γ = v } \pi(\mu,v)=\{\gamma \in \mathcal{P}(X\times Y):(\pi_x)_{\#}\gamma=\mu,(\pi_y)_{\#}\gamma=v\} π(μ,v)={γ∈P(X×Y):(πx)#γ=μ,(πy)#γ=v}.
找到一个联合概率密度 γ \gamma γ ,
使得传输代价最小,即 ( K P ) i n f { K ( γ ) : = ∫ X × Y c ( x , y ) d γ ( x , y ) : γ ∈ π ( μ , v ) } (KP) inf\{K(\gamma):=\int_{X\times Y} c(x,y) d_{\gamma}(x,y):\gamma\in \pi(\mu,v) \} (KP)inf{K(γ):=∫X×Yc(x,y)dγ(x,y):γ∈π(μ,v)}
实际上KP问题是一个线性规划问题:
{ μ = ∑ μ i δ ( x − x i ) v = ∑ v i δ ( y − y i ) \begin{cases} \mu =\sum \mu_i \delta(x-x_i) \\ v =\sum v_i \delta(y-y_i)\end{cases} {μ=∑μiδ(x−xi)v=∑viδ(y−yi)
最小化: K ( γ ) = ∑ i j γ i j δ ( x − x i ) δ ( y − y i ) K(\gamma)=\sum_{ij}\gamma_{ij}\delta(x-x_i)\delta(y-y_i) K(γ)=∑ijγijδ(x−xi)δ(y−yi) ,
可以证明这个问题的解是存在的,具体证明可以参看顾险峰教授的最优传输课程。
6
关于最优交通的研究来自物理世界,但其抽象形式的问题建模及其简洁的解决方案在交通领域之外产生了更大的影响(Courty,Flamery,Tuia&Rakotomonjy,2015)。另一方面,将坎托罗维奇的方法直接应用于再平衡任务可能会遇到一些现实世界中的困难。例如,道路网络不构成度量空间。
PDP-Based Approaches
目前对BSS再平衡问题的大部分研究将其建模为一种提货和交货问题pickup and delivery problem(PDP)(Benchimol, Benchimol, Benoit et al., 2011; Raviv & Kolka, 2013; Forma, Raviv & Tzur, 2015).一般形式的提货和交货问题(也称为一般提货和交付问题General Pickup and Delivery Problem,或GPDP)是一个典型的资源分配问题,其中系统需要分配一组车辆,为每个车辆构建一条路线,以满足一定数量的运输请求,并具有一定的约束和优化目标。在运输系统场景中,一般提货和交货问题(GPDP)(Savelsbergh&Sol,1995)涵盖了与计划优化相关的一系列现实问题。GPDP有几个子类型,一个简单的分类方案由(Savelsbergh&Sol,1995)提出。此外,Parragh,Doerner&Hartl(2008)提出了一种更精细的分类方案,包括四个层次。
🔥在此框架下,Chemla、Meunier和Calvo(2013)提出了一种静态再平衡的分支和切割算法,该算法通过表格搜索找到最优解的上界。
🔥LRaviv&Kolka(2013)通过预测一天开始时的最优库存水平来解决这个问题,并提出了基于连续时间马尔可夫链的解决方案。
🔥在动态再平衡方面,(Benchimol,Benchimor,Chappert等人,2011)通过时空网络上的弧流公式来表示问题,并将其与 1-PDP 进行比较,然后使用Dantzig-Wolfe分解和Benders分解来获得可处理的下界。
🔥Pfrommer等人(Pfromer,Warrington,Schildbach&Morari,2014)使用基于模型的后退视野优化技术,将运营商搬迁操作和基于用户的搬迁结合起来。事实上,许多关于运营策略的研究发现,预测分析可以对再平衡问题做出重要贡献(Barth&Todd,1999)。
🔥Caggiani和Ottomanelli(2012)使用神经网络预测自行车的到达和离开,以帮助决策支持系统完成自行车共享再平衡任务。
🔥 Regue和Recker(2014)引入了主动车辆路线的概念,并提出了一个解决BSS中动态自行车再平衡问题的框架,其中包括需求预测模型作为其四个组成部分之一。
AN RL’S PERSPECTIVE
我们提出了一种强化学习方法,可以通过经验学习解决自行车再平衡问题,而无需事先了解租金或回报分配。这种方法的特点是:
- 策略功能直接将观察到的状态映射到要采取的操作,无需任何在线拟合过程;
- 由于深度神经网络的非凸性,以及RL允许的离散空间优化,目标函数的形式范围更广;
- 学习过程不需要事先了解或明确预测自行车的目的地分布。
本文简化了场景,只考虑了中心枢纽central hubs之间的再平衡,这一点也被其他先前的研究所采用(Singhvi、Singhvi和Frazier等人,2015)。任何一对hubs的位置之间的距离编码在距离矩阵D中,其中 D i , j D_{i,j} Di,j表示集hub点 i i i和 j j j之间的logic距离。
Policy Gradient for Continuous Action
我们将再平衡问题建模为持续行动政策问题的RL(Lillicrap,Hunt,Pritzel等人,2016)。由于在连续作用空间中很难找到Q函数Q-function 的argmax,因此通常使用策略梯度法(Sutton,McAllester,Singh,&Mansour,2000)。假设策略函数policy function
π
\pi
π族由
θ
\theta
θ参数化, 策略梯度的目标是在将提高性能的方向(即,
∇
θ
J
(
π
θ
)
∇_θJ(\pi_\theta)
∇θJ(πθ)),它通常遵循随机政策的政策梯度定理policy
gradient theorem(Sutton,1999):
其中,KaTeX parse error: Undefined control sequence: \row at position 1: \̲r̲o̲w̲^{\pi}(s)是依赖于策略
π
\pi
π的状态分布。然后,困难的部分是近似Q函数(Q function),它(Q函数)根据样本的回馈
r
t
γ
r^{\gamma}_t
rtγ的评估而来,其方式与REINFORCEMENT算法类似(Williams,1992).
在本研究中,我们使用了连续策略梯度方法的确定性版本,其中
μ
θ
:
S
→
A
μ_θ:S →A
μθ:S→A . 因此,绩效目标
J
θ
J_θ
Jθ不需要整合行动空间(Silver,Lever,Heess等人,2014)
并且可以通过链式规则计算梯度:
Objective Function
一个action A ∈ A ⊂ R k × k A \in \mathbb{A} \subset R^{k\times k} A∈A⊂Rk×k 作为一个再平衡计划中的一个示例,由一个 k × k k\times k k×k矩阵表示,其中 A i j A_{ij} Aij是从 i i i到站点 j j j再平衡自行车的数目。虚拟环境使用两个kw维的真实值向量 u u u去表示新收到的租赁请求(rent requests), v v v表示一个整天的在hub的服务的自行车的数量。在每个时间步,agent生成一个计划 π ( s ) = A \pi(s)=A π(s)=A,它可以观察到一天结束的时候存储状态repository state v v v(即, s ( t ) = v ( t ) s^{(t)}=v^{(t)} s(t)=v(t) 对任何一天 t t t),但是由于无模型假设model-free assumption而不知道输入的租赁请求rent request数额 u u u。
直观地看,政策每个时间步骤的奖励由两部分组成:
这里,
r
i
n
c
o
m
e
r_{income}
rincome是用户为租用自行车而支付的收入金额,且
c
o
s
t
r
e
p
o
s
i
t
i
o
n
cost_{reposition}
costreposition是再定位成本,近似为:
但是,为了给出收入潜在损失potential loss的更强烈信号,我们用损失值
r
m
i
s
s
r_{miss}
rmiss代替收入项
r
i
n
c
o
m
e
r_{income}
rincome,该损失值与供求之间的差距成比例:
其中,
w
m
i
s
s
w_{miss}
wmiss是如果一个租赁请求不得满足的时候的潜在成本potential cost的比例, max 是元素对位函数。这里,
Z
i
(
t
+
1
)
=
v
i
(
t
)
+
∑
j
A
i
,
j
(
t
)
Z_i^{(t+1)}=v_i^{(t)}+\sum_j A^{(t)}_{i,j}
Zi(t+1)=vi(t)+∑jAi,j(t) 是在第
t
+
1
t+1
t+1天开始的hub
i
i
i的供应量。它可以分成两部分:在天
t
t
t结束时hub
i
i
i的数额,和在第
t
t
t天其他所有的hubs的再定位的数额之和。这类似于(Raviv&Kolka,2013)提出的UDF(用户不满函数User Dissatisfaction Function)的思想,并鼓励我们将目标改革为损失函数,这是一个要最小化的正数:
Regularization
这个策略的有一个约束条件必须要满足:源hub
i
i
i的移动总额应该加上该hub的当前储存。即
为了解决这一约束,我们认为在总共有
k
k
k个hubs的问题中,任何hub
i
i
i的策略都具有
k
−
1
k-1
k−1自由度,这样我们的策略网络只能为每个hub生成
k
−
1
k-1
k−1值,第
k
k
k值由下士表示:
如果我们将可能的负值视为"back-flow",并将再平衡计划更改为:
使得back-flow重新定位量将总是带来额外的成本。因此,Agent可以自动学习避免这种“回流”(back-flow)行为。为了加速学习,我们对这种back-flow行为增加了额外的惩罚:
其中
w
b
a
c
k
w_{back}
wback是大量(例如,
1
0
8
10^8
108)。在支持向量机(SVM)的实现中,通常使用具有高惩罚权重的额外正则化项,该支持向量机将硬约束转换为软约束,并为优化提供了便利。
Ω
i
d
l
e
Ω_{idle}
Ωidle是另一个规则化术语,它阻止系统将空闲自行车留在码头。该规则属于可能反映了运营公司将向市政当局支付的额外费用:
这将使我们能够估计整个系统的最佳交付量,该量目前是恒定的。将两个正则化项添加到前一个损失函数中,可实现以下目标:
Empirical Results
我们设置了一个虚拟环境,其中有
k
=
8
k=8
k=8个central hub,其成对距离矩阵被随机初始化。每个枢纽都有自己的租金和回报行为(rent and return behaxiors)特征。
u
u
u和
v
v
v的选择应遵循自行车总量大致保持不变的原则,我们进一步假设自行车的总供应量大致等于自行车的总需求量,因此
E
[
∣
v
∣
1
]
=
E
[
∣
u
∣
1
]
\mathbb{E}[\vert v\vert_1]=\mathbb{E} [\vert u \vert_1]
E[∣v∣1]=E[∣u∣1].这是一个具有挑战性的设置,因为任何供给的错位都会导致严重的惩罚。我们随机生成
u
ˉ
\bar{u}
uˉ和
v
ˉ
\bar{v}
vˉ,如图4所示。
实际每日租金和收益模式遵循方差分别为
∑
u
∑_u
∑u和
∑
v
∑_v
∑v正态分布:
我们设置分布的方差都是同构的
∑
u
=
∑
v
=
5
⋅
I
∑_u=\sum_v =5\cdot I
∑u=∑v=5⋅I,超参数
w
r
e
p
o
s
i
t
i
o
n
=
0.2
w_{reposition}=0.2
wreposition=0.2,
w
m
i
s
s
=
10
w_{miss=10}
wmiss=10,
w
i
d
l
e
=
0.1
w_{idle=0.1}
widle=0.1。我们遵循确定性策略梯度方法,并使用批量预期收益作为状态动作值的估计。图5(a)和5(b)从损失函数的两个重要部分(重新定位成本和丢失请求损失)描述了政策的学习进度。这两个术语实际上是相互竞争的,但随着学习过程的进行,两者都在稳步减少,最终达到了一个专用的平衡。图5(c)和5(d)描述了当应用于一组看不见的测试数据集时,所学策略的相同损失值。它们遵循与图5(a)和5(b)中的模式相似的模式,表明政策功能可以很好地概括未发现的新场景,可以直接生成良好的行动决策,而无需进行在线拟合。我们还注意到,
c
o
s
t
r
e
p
o
s
i
t
i
o
n
cost_{reposition}
costreposition的学习曲线比
l
o
s
s
m
i
s
s
loss_{miss}
lossmiss更温和。这可以说是因为学习让大部分存储库保持不变比学习对深度神经网络的租金分布rent distribution做出反应需要更多的努力。
系统的总体损失如图6所示。我们在图6(a)中使用一条水平线来表示基线延迟策略lazy policy(没有任何重新定位成本)的
l
o
s
s
m
i
s
s
loss_{miss}
lossmiss。与学习到的策略的早期迭代相比,该值相对较低,因为不适当的重新平衡工作将导致相当大的成本,这可能远远高于由于错过请求missed requests和闲置成本idle cost而造成的损失。
随着学习的进展,Agent开始寻找次优策略,为每个hub重新定位自行车。损失值的波动反映了动态过程的不可预测性,可能是因为请求的总量与供应的总量紧密相等,例如任何错位mis-alignment都会导致
l
o
s
s
m
i
s
s
loss_{miss}
lossmiss的高惩罚。在每次迭代中,策略都在一组单独的数据上进行测试。我们在图6(b)中比较了训练数据和测试数据之间的损失值,这表明学习策略的过度拟合不会导致性能退化。
这种方法可以改进几点。🐸首先,在我们的模拟中,它获得了大量的经验;而在现实场景中,agent必须能够从非常有限的经验中学习,这对泛化能力带来了额外的挑战,尤其是当分布不稳定时。🐸其次,要运输的自行车数量被建模为连续动作,而现实场景可能需要离散动作空间。🐸第三,本示例既不考虑车辆的回程行程,也不考虑多车辆设置,这将需要在行动空间和目标函数中都包含额外的参数和项目。🐸最后,在我们的模拟中,描述状态的唯一变量是存储库状态,而将所有其他因素留给扰动作为随机变量。在现实场景中,周末、天气等特性可以对最终政策做出重要贡献。
CONCLUSION
为了实现更好的智能交通系统,系统真正的“智能”行为,以物联网基础设施之上的机器学习算法为特征,应该是我们下一个研究重点。本文通过对自行车共享系统中的再平衡问题的案例研究,证明了日间行车灯在政策优化方面的巨大作用。这些问题中的策略功能的优化目标通常受到多个标准的组合,这可以通过DRL框架很好地建模。此外,与以前的方法相比,DRL 允许系统在世界环境中以最少的先验知识生成合理的策略,并具有更强的从训练数据中归纳的能力。这些优良的特性鼓励我们在未来的工作中更广泛地探索DRL在智能交通系统中的潜力。