基于博弈论的出租车系统效率优化

Jiarui Gan and Bo An, Nanyang Technological University

将博弈论的解决方案概念与现有的出租车市场模型相结合，可以将模型驾驶员的策略制定过程转化为博弈，将优化出租车系统效率的问题转化为寻找市场政策，以达到期望的均衡。
北京有6万多辆有牌照的出租车，这些出租车为近百万市民提供服务。然而，尽管高峰时段的顾客需求不断增长，大多数出租车司机的行为却与直觉相悖，他们故意避免在高峰时段工作。因此，乘客在叫车上花费了大量不合理的时间。一些人甚至改乘无证出租车，这类出租车的收费通常更高，且对道路安全构成了巨大威胁。结果表明，不合理的基于距离的定价方案是造成这种情况的主要原因，也被称为高峰时段困境。由于交通繁忙，出租车司机在高峰时间的行车速度较慢，导致收入减少，甚至出现负增长，因此他们只能追求唯一能让他们赚钱的选择：在高峰时间不工作。
我们提出了一个解决方案：在高峰期提高票价，以激励出租车司机工作，具体来说，使用动态时间相关的票价结构，区分高峰期和非高峰期。关键是计算出使出租车系统效率最大化的最优票价。我们把这个问题称为出租车系统效率最优化（TASEO）问题。

人工智能和博弈论

有关出租车市场经济的研究可以追溯到1969年，奥尔指出了传统成本-需求理论应用的不足。1972年,乔治·道格拉斯引入了一个总需求和总供给模型，该模型假设客户对出租车服务的需求取决于预期的货币和时间成本，而预期的顾客等待时间则取决于总的空闲出租车小时数。基于该模型，杨海和同事从服务强度方面研究了交通拥堵的外部关系和时间变化。其他研究调查了纽约等不同地方的出租车票价。Kim Young-Joo and Hark Hwang 研究了以最大化平均利润为目标的出租车价格增量折扣政策。杨海和他的同事研究了一种非线性的票价结构，并展示了它相对于香港现有选择的优势。然而，这些工作都没有调查出租车司机的战略行为的影响。为了解决我们的问题，我们需要知道出租车司机对票价变化的反应。
幸运的是，人工智能领域为研究人类行为提供了许多技术，将人工智能技术应用于交通领域的问题，如交通控制、交叉口管理和交通系统仿真，是一个日益增长的趋势。最近，我们看到博弈论在中国的成功应用AI社区，如在安全资源分配。博弈论为研究理性决策者之间的冲突与合作提供了丰富的数学基础和概念。现有的应用已经证明了博弈论在解决复杂的现实世界问题方面的潜力，激励我们沿着这个方向寻找解决方案。

出租车系统效率最优化

通过票价调整来提高系统效率，首先要了解票价对系统效率的影响。现有的研究表明，出租车市场是由两个关键因素决定的，即票价价格和出租车供应(即正常运营的出租车的数量)。由于出租车系统的分散管理，出租车的供应是由司机的经营策略决定的，而不是由市场监管者直接控制的。因此，我们有一个间接的依赖关系:对于给定的票价，出租车司机用最好的策略化。如图1所示，我们可以将博弈论的行为模型与现有的出租车市场模型相结合。

现有的出租车市场模型

出租车市场是一个动态的时变系统。为了对其方差进行建模，我们对优化范围进行了离散化
(如一整天)分成一组n个等长的时间段，这样当每个时间段的持续时间足够短时，市场就可以在每个时间段内被视为均匀。在一个时间段 $i$ 中，整个出租车系统服务的乘客数量取决于一次旅行的平均货币和时间成本，即，
$D^i(F^i,L^i,W^i)=D^ie^{-\beta(\frac{F^i}{\gamma}+\varphi_1L^i+\varphi_2W^i)} \tag{1}$
其中， $e$ 是自然数； $F^i$ 是平均票价； $L^i$ 是平均乘车时间； $W^i$ 是顾客平均等待时间； $\beta$ >0，是一个敏感性参数； $\varphi_1$ 和 $\varphi_2$ 是用于将时间成本转换为货币成本的参数； $\gamma$ 是平均每次载客人数； $D^i$ 是潜在顾客数量，当总成本为零时，达到理想值。等待时间 $W^i$ 取决于 $D^i$ ，即
$W^i(D^i,L^i,p^i)=\frac{\omega}{p^i \cdot N_T-D^iL^i/(\gamma \cdot \tau)}\tag{2}$
其中， $\omega$ >0，是取决于出租车停靠站密度的参数； $p^i$ 是正在运营的出租车数量占出租车总数的比例（ $P o W$ ）； $N_T$ 是出租车总数； $p^i \cdot N_T-D^iL^i/(\gamma \cdot \tau)$ 代表在时段 $i$ 的空车。可以证明，当 $F^i$ ， $L^i$ 和 $p^i$ 固定时， $D^i$ 和 $W^i$ 由方程 $(1)$ 和方程 $(2)$ 唯一确定。事实上， $D^i$ 和 $W^i$ 是 $F^i$ ， $L^i$ 和 $p^i$ 的隐函数。我们把他们表示为 $D^i=D^i(F^i,L^i,p^i)$ 和 $W^i=W^i(F^i,L^i,p^i)$ 。
考虑到平均行程距离 $d^i$ ，行程时间可以由行程速度 $V^i$ 表示为 $L^i=d^i/V^i$ 。路网中的行驶速度可以近似为道路车辆数的线性函数，该函数与 $p^i(PoW)$ 是线性的，因为我们假设网络中非出租车车辆 $N^i_v$ 的数目是一个基于特定时期的常数。因此， $V^i$ 是 $p^i$ 的线性函数，即：
$V^i(p^i)=\mu(p^i \cdot N_T +N^i_v)+\lambda$
其中， $\mu$ 和 $\lambda$ 是取决于道路状态的参数。我们把 $L^i$ ， $D^i$ ， $W^i$ 分别记为 $L^i(p^i)$ ， $D^i(F^i,p^i)$ ， $W^i(F^i,p^i)$ 。
接下来，我们采用基于距离的票价结构
$F^i=f_0+f^i\cdot(d^i-d_0)$
其中， $f_0$ 是起步价， $d_0$ 是起步里程数； $f^i$ 是 $i$ 时段的每公里单价，也就是单位距离的收费。我们通过调整每公里单价 $f^i$ ，进而将 $F^i$ 看作函数 $F^i(f^i)$ ，从而优化票价结构。因此，所有的市场因素，尤其是被服务的客户数量 $D^i$ ，现在取决于 $f^i$ 和 $p^i$ ，也就是 $D^i=D^i(f^i,p^i)$ 。为了便于理解，我们将所有时期的市场因素表示为列向量，其中每个成分对应一个时期。例如，我们把每公里单价表示为 $f =(f^i)$ 。图 $2$ 总结了这些因素之间的相互依赖关系。

出租车司机的策略

出租车司机通过考虑潜在的利润来决定什么时间工作。换句话说，出租车司机的策略是制定一个时间表，明确规定(一天中的)几个工作时间段。我们把随机因素考虑到策略中，让司机制定一个混合的策略，这是一个罗列可能出现的时间表的任务。我们用向量 $s\in\{0,1\}^n$ 表示单一策略，其中， $s^i=1(否则，s^i=0 )$ 表示在 $i$ 时段正在营业（否则，不营业）。设单一策略集合为 $S$ ，即出租车司机可选择的单一策略集合。然后，我们把混合策略表示为 $x\in R$ 。考虑到出租车司机在实际情况下的能力，我们对纯策略集中的每个调度施加以下条件：

条件1（C1）：出租车司机工作时间不会超过 $n_w$ 小时。
条件2（C2）：出租车司机连续工作时间不会超过 $n_c$ 小时。

也就是， $S=\{s\in\{0,1\}^n | s 满足C1和C2 \}$ 。
我们的框架适用于出租车司机行为的不同模型。我们用两个模型来说明：对称策略，即假设所有出租车司机都是相同的，每个出租车司机都假设所有其他司机都采用相同的策略(同车型、运营成本、充电方案)；利己主义战略，其中经典的解决概念——纳什均衡(NE)被采用，我们假设司机偏离了他或她的策略 (而其他人则不会)除非他或她无法从中受益。

对称战略。 这个假设与焦点理论是一致的，这个战略指出，人们倾向于根据简单的社会信念来使用解决方案(其他司机也采用相同的策略)，尤其是在缺乏沟通的情况下。给定对称策略 $x$ ，则 $P o W$ 由
$\sum_{s\in S} x_s \cdot s\tag{3}$
这与出租车司机在每个时段工作的概率相同，可以看作是出租车司机策略的一个有代表性意义的表示。出租车司机是利益驱动的，他们总是选择最好的策略去最优化他们效用，也就是
$x^* \in argmax_{x:x \geq 0,1^Tx=1}U(f,p(x))\tag{4}$
在定义效用函数 $U (f, p)$ 之前，注意上述优化，虽然定义在单一策略上，但在假设所有驱动都相同的情况下，捕获所有司机的行为(正如我们所看到的，在一个时间段工作的利润也取决于有多少其他出租车在同一时间段工作)。在这种情况下，每个玩司机都要解决相同的优化问题，即司机的效用取决于使用相同混合策略的其他玩家的策略。
$U (f, p)$ 被定义为在所有时间段的效用的总和，也就是
$U(f,p)=\sum_{i=1}^n p^i \cdot G^i (f^i ,p^i)，$
其中 $G^i (f^i ,p^i)$ 是在时间段 $i$ 内的工作利润定义为
$G^i (f^i ,p^i)=\frac{D^i(p^i)}{\gamma \cdot N_T \cdot p^i} \cdot F ^i(f^i)-c^i \cdot \tau\tag{5}，$
其中， $D^i/ \gamma \cdot N_T$ 代表每辆的士的平均行程次数， $c_g$ 是单位时间内汽油消耗的成本。
由式 $(4)$ 可知，车费价格通过优化决定出租车司机的策略，而策略又通过公式 $(3)$ 决定 $P o W$ 。 $U (f, p)$ 对于 $p$ 是严格凹的，所以只有一个 $p$ 最大化 $U$ ，已知 $p$ 的可行集是凸的。这意味着即使方程 $4$ 有不止一个解，所有的解都必须产生相同 $P o W$ ，并且保证 $f$ 到 $p$ 是一一对应的。

策略战略。 为了分析在那什均衡概念下出租车司机的行为，我们定义策略组合为 $x_1,...,x_{N_T})$ 。然后通过
$p^i(x_1,...,x_{N_T})=\frac{1}{N_T}\sum_{j=1}^{N_T}\sum_{s\in S}x_{j,s}\cdot s^i \tag{6}$
给出 $P o W$ 。每辆出租车的效用是
$U_ j(f,x_1,...,x_{N_T})=\sum_{i=1}^np^i(x^j) \cdot G^i(f^i, p^i(x_1,...,x_{N_T}) ) \tag{7}$
在NE模式下，假设其他玩家坚持自己的策略，那么没有玩家能够从改变自己的策略中获益。即 $x_1，…，x_{N_T})$ 在NE中，对于每辆出租车 $j$ ，
$U_j(f,x_1,...,x_{N_T})\geq U_j(f,x1,...,x_{j-1},x',x_{j+1},...,x_{N_T}),\\ \forall x' \geq 0,x'=1 \tag{8}$
因为有大量的出租车，所以游戏不是非原子的，这意味着一辆出租车的影响微乎其微。当一辆出租车偏离，它不会改变整体的 $P o W$ ，也就是
$p(f,x_1,...,x_{N_T})=p(f,x1,...,x_{j-1},x',x_{j+1},...,x_{N_T}),\\ \forall x' \geq 0 , x'=1$
将式 $(8)$ 中的判据改写为
$\sum_{i=1}^np^i(x_j)\cdot G^i(f^i,p^i(x_1,...,x_{N_T}))\geq \sum_{i=1}^np^i(x')\cdot G^i(f^i,p^i(x_1,...,x_{N_T})),\forall x'\tag{9}$
另外，因为效用函数(方程 $7$ )与所有出租车相同，所以博弈是对称的。对于对称博弈，总是存在一种对称均衡，在这种均衡下，所有参与者都采用相同的策略。在这种情况下，策略组合可以被简化为一个通用的策略，用 $x$ 表示。我们在方程 $3$ 把 $P o W$ 写成 $\sum_{s\in S} x_s \cdot s$ ，于是，式 $9$ 中的平衡判据变为
$\sum_{i=1}^np^i(x_j)\cdot G^i(f^i,p^i(x))\geq \sum_{i=1}^np^i(x')\cdot G^i(f^i,p^i(x)),\forall x'\tag{10}$
为了分析均衡策略，我们构造如下函数：
$\mathcal{G}(\mathbf{f}, \mathbf{p})=\sum_{i=1}^n\int_0^{p^i}G^i(f^i,p^i)dp.\tag{11}$
让 $x^*$ 进入平衡状态。我们认为，被推导出来的 $P o W$ $p^∗= p(x^∗)$ 在给定的 $f$ 上使 $g (f, p)$ 最大化，这意味着，与方程 $4$ 一样，被如下优化所捕获：
$x^* \in argmax_{x:x\geq 0,x=1}g(f,p(x)).\tag{12}$
注意，我们可以发现 $max_{x:x\geq 0,x=1}g(f,p(x))$ 是一个凸优化： $p$ 的可行空间显然是凸的，而对于自变量 $p$ 来说 $g (f, p)$ 是凹的（接下来我们将会展示）。根据凸优化的最优性准则，对于所有可行的 $p^{'}$ 来说，当且仅当 $\nabla g(p^*)(p^*-p')\geq 0$ 时， $p^*$ 是最优的。这与方程 $10$ 中的平衡判据完全相同。
正如别处指出的那样（从 $U^i$ 的极简性看出），为了观察出 $g (F, G)$ 的凹度，我们注意到 $D^i(f^i,p^i)$ 对于 $p^i$ 是严格凹的。我们通过检验 $g (f, p)$ 海森矩阵来验证凹性：我们让 $p^i \cdot (\partial D^i(f^i,p^i)/\partial p^i)-D^i(f^i,p^i)<0$ ，因为
$lim_{p^i \rightarrow 0} (p^i \frac{\partial D^i(f^i,p^i)}{\partial p^i}-D^i(f^i,p^i))=0$
让
$\frac{\partial D^i(f^i,p^i)}{\partial p^i}-D^i(f^i,p^i)$
对 $p^i$ 求偏导得
$p^i \cdot \frac{\partial ^2D^i(f^i,p^i)}{(\partial p^i)^2}$
其中，最后一个不等式成立，理由如下：由于 $D^i$ 的极简性， $\partial ^2D^i(f^i,p^i)/(\partial p^i)^2<0$ 。因此，海森矩阵是正定的。这也意味着只有一个 $p$ 使 $\mathcal{G}(\mathbf{f}, \mathbf{p})$ 最大化，这与 $U (f, p)$ 相似，保证了 $f$ 到 $p$ 的一对一对应。

求解算法

我们使用服务客户的总数 $D(f,p)\sum_iD(f^i,p^i)$ 去测量系统效率以及制定一个TASEO作为以下两层优化方案：
$max_{f,x^*}D(f,p(x^*)) \tag{13}$
使得
$x^* \in argmax_{x:x \geq 0,x=1}U(f,p(x)),\tag{14}$

$\begin{aligned} &\frac{\partial^{2} \mathcal{G}(\mathbf{f}, \mathbf{p})}{\partial p^{i} \partial p^{j}}\\ &=\left\{\begin{array}{cc} {0,} & {\text { if } i \neq j} \\ {\frac{F^{i}\left(f^{i}\right)}{\gamma \cdot N_{T}} \cdot \frac{1}{\left(p^{i}\right)^{2}} \cdot\left(p^{i} \cdot \frac{\partial D^{i}\left(f^{i}, p^{i}\right)}{\partial p^{i}}-D^{i}\left(f^{i}, p^{i}\right)\right),} & {\text { if } i=j} \end{array}\right. \end{aligned}$
通过这个例子中，我们在方程中 $14$ 用 $\mathcal{G}(\mathbf{f}, \mathbf{p})$ 代替 $U(\mathbf{f}, \mathbf{p})$ 。只要优化目标是 $f$ 和 $p$ 的函数，该模型也可以用相同形式的优化程序处理其他系统效率的度量。
为了解决这个双层优化问题，我们可以将连续票价离散化为一个小的候选价格集合，比如说 ${¥ 1.00, ¥ 1.20,$ $\ldots, ¥ 5.00\},$ 并求解各候选价格下的下一级方案(方程 $14$ )，得到最优票价。因此，问题简化为较简单的程序。不幸的是，由于驱动程序的纯策略集的指数增长，底层程序遇到了可伸缩性问题。例如，当 $n = 18$ 时，纯策略集包含大于 $1.7×10^5$ 的策略。因此，如何设计有效的算法来解决可伸缩性问题是我们的方法的关键。
简单地表示策略的一种方法是将司机的工作日程分成具有较少模式的部分。每一节都是出租车司机连续工作的连续时段(见图 $1$ )。我们将这些工作部分称为atom调度(或简称atom)，并将这种方法称为atom调度方法(ASM)。显然，给定一个 $n$ 周期模型，我们只需要 $O(n^2)$ 原子调度来表示任何原始调度(即通过指定起始和结束周期)。这与原始策略空间的指数大小形成了对比。

图1：atom调度方法

我们把原子表示为一个元组 $o (J, k)$ ，其中 $J$ 和 $K$ 分别表示开始和结束阶段。为了重新制定较低层次的原子进度表，我们给每个原子 $o$ 分配一个加权 $w _0$ 来表示使用该原子的出租车的百分比。因此， $P o W$ 可以计算为
$p^{i}=\sum_{o \in \mathcal{O}} w_{o} \cdot \delta(o, i), \quad \forall i=1, \ldots, n$
其中， $\delta(o,i)$ 表示原子 $o$ 是否在阶段 $i$ 工作，也就是，如果 $j\leq i \leq k$ 则 $\delta(o,\langle j, k\rangle, i)=1$ ，否则 $\delta(o,\langle j, k\rangle, i)=0$ 。 $O$ 是我们需要的所有原子的集合。显然，现在， $p$ 被定义为一个函数 $p = p (w)$ ，因此较低级别的程序可以被重新表述为一个紧凑的程序，它接受 $w$ (而不是 $x$ )作为变量。特别地，当 $C 2$ 作用于 $\mathcal{S}$ 时，我们只需要在大多数 $n_c$ 周期内的原子，因此
$\subseteq\left\{o\langle j, k\rangle | 1 \leq j \leq k \leq n, 0 \leq k-j<n_{c}\right\}$
并且在 $O$ 中原子数小于 $n_c×n$ ，许多变量在紧凑的公式。新公式的结构是这样的：
$\max _{\mathbf{f}, \mathbf{w}^{*}} D\left(\mathbf{f}, \mathbf{p}\left(\mathbf{w}^{*}\right)\right)$
使得
$\mathbf{w}^{*} \in argmax_{\mathbf{w} \in \mathcal{W} }U (\mathbf{f,p(w))}$
其中
$\begin{aligned} &\mathcal{W}=\\ &\left\{\mathbf{w} \in \mathbb{R}^{|O|} | \begin{array}{rl} {0 \leq w_{o} \leq 1,} & {\forall o \in \mathcal{O}} \\ {p^{i}(\mathbf{w})+q^{i}(\mathbf{w}) \leq 1,} & {\forall i=1, \ldots, n} \\ {\sum_{i=1}^{n} p^{i}(\mathbf{w}) \leq n_{w}} \end{array}\right\} \end{aligned}$
与 $\mathrm{P}_{\mathrm{O}} \mathrm{W}$ ， $q^i(\mathbf{w})$ 是在 $i - 1$ 由工作状态转向休息状态的出租车百分比，也就是 $q^i(\mathbf{w})=\sum_{o\in \mathcal{O}}w_o \cdot \delta'(o,i)$ ，其中，如果 $k = i - 1$ （假设 $o$ 在阶段 $i - 1$ 结束）并且 $\delta'(o,\langle j,k \rangle,i)=0$ ，那么 $\delta(o,\langle j,k \rangle,i)=1$ ，否则 $\delta(o,\langle j,k \rangle,i)=0$ 。可以证明， $\mathcal{W}$ 保证了简化公式与原公式的等价性。若没有 $\mathcal{W}$ ，所得到的解可能找不到与之对应的简洁的混合策略。

实证评估

我们从北京交通研究中心获得真实数据进行了实证研究。我们计算出真实出租车市场的最优票价，检查调度约束的影响，并评估了 $\mathrm{ASM}$ 的性能。以对称策略为前提，建立了出租车司机行为模型。

最优票价

每隔￥0.20，我们检查了从￥1.00到￥5.00的价格。对于每个价格，我们计算了司机的最优运营策略，并根据现有的出租车市场模型，用计算出的司机策略检查了系统效率（流程在图2）。图 $4 (a)$ 显示了系统效率方差。由蓝色曲线可知，考虑约束 $\mathrm{C}1$ 和 $\mathrm{C}2$ 时，系统效率峰值为￥2.60。

图2：出租车司机决策流程

图3：出租车司机决策流程

图4

调度约束的影响。 我们通过从模型中删除 $\mathrm{C}1$ 和 $\mathrm{C}2$ ，从而评估影响驱动程序行为(进而影响系统效率)。正如图 $4 a$ 展示，当我们忽略约束时，系统效率仍然在提高，导致了一个不准确的结果：￥5.00（甚至更高）。使系统效率的提高额外增加实际上是不切实际的，因为司机的过度工作。这可以在图 $4 b$ 中看到， $\mathrm{PoW}$ 的方差表明由于调度约束，出租车司机在高峰阶段不愿意工作。在这种情况下，系统不会从更高的票价中受益，因为当更高的价格不能通过激励更多的出租车工作来提高服务质量时，它只会导致客户数量的减少和效率的降低。
$A S M$ 的性能。 最后，我们评估了解决方案算法 $A S M$ 的可伸缩性。首先，我们将时间范围离散成不同的周期数来扩展问题。与简单的公式（公式 $13$ 和 $14$ ）相比，图 $5 a$ 和 $5 b$ 描述了 $A S M$ 在不同规模问题上的运行和内存使用情况。简单的公式在第15个时期内存不足，但是 $A S M$ 可以很轻松地处理多大100个时期的问题。当数据可用时，扩展到更多周期的能力使得我们使用更细粒度的模型来实现更高的准确性。它也让我们考虑更长的市场周期（例如，在一周内，考虑周末和工作日客户需求的差异）。

图5：ASM的运行和内存使用情况

展望

尽管目前的模型和算法能够处理特定设置的 $T A S E O s$ ，但是它们仍然不能满足更广泛和复杂的现实场景。我们为今后的研究指明了以下方向：
具有更好可扩展性的算法。 在实践中，客户需求和路况在不同的日子可能不一样。出租车市场的周期更有可能是一周，而不是一天，因此要以相同的粒度覆盖整个星期，还需要投入更多的时间。类似地，当模型需要更细粒度以获得更高的准确性时，需要更短的时间段，如半小时甚至10分钟，并且周期的数量也相应增加。虽然在其他地方提出了一种基于多边形表示转换的可扩展算法，但是当考虑其他现实约束和不确定性时，该算法可能无法很好地扩展。
异构出租车和出租车司机。 我们目前的模型是建立在假设所有出租车和司机都是同质的基础上的。虽然这在许多城市的出租车系统中是普遍存在的，但是一些特殊的情况就需要特殊处理。例如，在一些城市，出租车可以由多个司机操作，以最大限度地提高使用率。在这种情况下，出租车可以运行更长的时间，实际上可能违反了约束 $C 1$ 和 $C 2$ 。汽车类型和出租车公司的差异也值得我们考虑。
人类行为的不确定性。 不确定性一直是智能行为建模的问题。在出租车系统中，司机在实施策略时面临不确定性。他们不能决定下一位顾客什么时候会来，也不能决定服务下一位顾客需要多长时间。在实践中，出租车司机会根据他们所面临的市场情况来选择他们的行为。如何在不确定性下模拟他们的行为是另一个需要关注的问题。
基于应用程序的服务的影响。 近些年智能手机的快速发展提供了大量的新应用程序和服务。拼车应用和顾客对司机的打车应用正在重塑传统的出租车市场，如优步和滴滴打车将出租车司机与寻求搭车服务的顾客联系起来。值得注意的是，这些服务不仅仅是一个简单的调度系统——它们还提供了客户和司机之间的谈判，并为双方提供了更广泛的选择。这些新服务的使用越来越多，表明在出租车系统研究中考虑这些服务的必要性。
空间差异 虽然我们的模型只考虑了出租车系统的时间方差，但空间方差是出租车系统的一个共同特征，尤其是在大城市中。不同地点的乘客需求密度和交通挤塞程度可能有所不同，对的士系统的表现有重大影响。我们将在今后的工作中加以考虑。