目录
1. 什么是离散选择模型?
日常生活中,我们会面临各种各样的选择问题,比如出行是打车、坐地铁还是坐公交?比如选择去不去某个餐厅吃饭或去哪个餐厅吃饭等等。回想一下我们是如何做决策的呢?本文要讲的离散选择模型(Discrete Choice Model, DCM)提供了一种有效的建模思路,该方法在经济学、社会学领域有着广泛的应用。
1.1 基本概念
一个基本的决策过程通常包含以下几种要素:
- 决策者;
- 备选方案集;
- 各个方案的属性;
- 决策准则。
举个例子:每天早上小明都会思考今天怎么去上班的问题,可以选的出行方式有:打车、坐地铁和坐公交。打车大概花15块、坐地铁5块、坐公交2块。虽然打车花的钱多但是快,不用换乘,也不用像坐公交那样走比较远的路;做地铁虽然便宜一点但要换乘,而且早高峰人巨多,舒适性不如打车好;但坐公交花的时间最长,虽然便宜但下车后要走好长一段路。小明综合考虑了后,觉得坐地铁的的效用最高,选择了坐地铁去上班。
这个例子中,小明是决策者,{打车、坐地铁、坐公交}是备选方案集,[{打车:15,快,不换乘,舒适度高},{坐地铁:5, 较快,换乘,舒适度中},{坐公交:2,慢,不换乘,舒适度低}]是各个方案的属性,效用最高为小明的决策准则。
1.2 效用
从上个例子中可以看到,人们在做决策时会综合考虑各方案的所有属性值,让效用达到最大化。以小明的决策过程为例(假设只有{费用、耗时、便捷、舒适度}这四个属性),分别计算不同交通方式的效用:
选择打车的效用:
U 打 车 = β 费 用 ∗ 15 + β 耗 时 ∗ 最 少 + β 便 捷 ∗ 最 便 捷 + β 舒 适 度 ∗ 最 舒 适 U_{打车} = \beta_{费用} *15 + \beta_{耗时}*{最少} + \beta_{便捷}*{最便捷} + \beta_{舒适度}*{最舒适} U打车=β费用∗15+β耗时∗最少+β便捷∗最便捷+β舒适度∗最舒适
选择做地铁的效用:
U 坐 地 铁 = β 费 用 ∗ 5 + β 耗 时 ∗ 次 之 + β 便 捷 ∗ 换 乘 + β 舒 适 度 ∗ 次 之 U_{坐地铁} = \beta_{费用} *5 + \beta_{耗时}*{次之} + \beta_{便捷}*{换乘} + \beta_{舒适度}*{次之} U坐地铁=β费用∗5+β耗时∗次之+β便捷∗换乘+β舒适度∗次之
同理可以计算出坐公交的效用,可以发现效用是不同属性的函数,而系数 β \beta β是各种方案的权重。如果坐地铁的效用对于小明来说最高,那就坐地铁。
1.3 离散选择模型的类型
根据备选方案的数量可以将离散选择模型分为二项和多项选择模型,比如去不去某一家餐厅吃饭就是二项选择模型,而去哪家餐厅(餐厅1、餐厅2、餐厅3)是多项选择模型。按照备选方案的特征可以分为无序和有序离散选择模型,比如去哪家餐厅吃饭中各个餐厅之间没有等级的差别,即是无序的,而交通事故的备选集中{仅财产损失、受伤、死亡}是有等级的。具体的划分如下。
本文以二项选择模型为例进行讲解。
2. 线性概率模型
以二分类变量为例,假设我们需要预测顾客是否会购买某种商品, Y = 1 Y=1 Y=1表示购买, Y = 0 Y=0 Y=0表示不购买。现在有这个商品的属性特征(X)和顾客是否购买(Y)的数据集,我们首先想到的是用线性函数进行拟合,得到 Y Y Y与 X X X之间的关系,拟合后的图形如下所示。
但这么做存在什么问题?
- 因变量Y只能取0和1,但使用线性概率模型可能会出现概率小于0或概率大于1的错误情况;
- 另一个原因是二分类变量违背了线性回归模型中的正态性和方差齐性假设,如果还用OLS进行参数估计,就会出错。
-
违背正态性假设的原因:当因变量只能取0、1时,误差项 ϵ i \epsilon_i ϵi分别为 − β 0 − β 1 X i -\beta_0-\beta_1X_i −β0−β1Xi、 1 − β 0 − β 1 X i 1-\beta_0-\beta_1X_i 1−β0−β1Xi,即两个确定的值,而不是一个分布。
-
违背方差齐性假设: V a r ( ϵ i ) = V a r ( Y i − − β 0 − β 1 X i ) = V a r ( Y i ) Var(\epsilon_i) = Var(Y_i--\beta_0-\beta_1X_i) = Var(Y_i) Var(ϵi)=Var(Yi−−β0−β1Xi)=Var(Yi)
假设 Y i = 1 Y_i=1 Yi=1的概率为 p i p_i pi, Y i = 0 Y_i=0 Yi=0的概率为 1 − p i 1-p_i 1−pi,则 E ( Y i ) = p i E(Y_i)=p_i E(Yi)=pi, V a r ( Y i ) = E ( Y i 2 ) − E ( Y i ) 2 = p i − p i 2 = p i ( 1 − p i ) Var(Y_i)=E(Y_i^2)-E(Y_i)^2=p_i-p_i^2=p_i(1-p_i) Var(Yi)=E(Yi2)−E(Yi)2=pi−pi2=pi(1−pi),说明 ϵ i \epsilon_i ϵi的方差是变动的,即方差不齐。
如果线性概率模型不再适用,那我们怎么解决因变量是离散变量这种问题呢?
3. Probit模型
3.1 效用最大化准则
前面介绍了什么是效用,基于经济学中的“理性经济人”假设,决策者在进行决策时,其追求的目标是让自身的效用最大化,即效用最大化准则。对于决策者 k k