BLP 是Berry, Levinson和Pakes三个作者名字的缩写,BLP模型主要是由Berry(1994, RAND), BLP(1995, Econometrica)奠定,后续的结构实证应用中也较多的使用。相对于之前使用的Logit模型和Nested Logit模型,BLP的主要贡献在于丰富了不同产品的需求替代规律(substitution pattern),从而解决了Logit模型中的IIA等一系列问题。
需求模型
BLP又叫Random coefficient logit model,其中有两个部分:random coefficient和logit。假设消费者选择产品j的效用函数是
其中
是产品的特征(比如在汽车市场就是性能,大小,品牌等等),
是价格,
是收入系数。虽然收入系数对于所有人相同,但是因为收入
在个体之间存在差别,因此价格敏感度(price sensitivity)在个体之间存在差别。(注:BLP使用了美国的收入分布来模拟
,而且在价格与收入比较接近的产品,也就是比较贵的产品中,这个方法更可行。)
是消费者对于不同产品特征的偏好。对第
个产品维度,消费者
的产品偏好为
其中
,因此
的分布参数为
。消费者效用也可以被分解为均值部分
和偏离部分
,即
其中
的加入主要为了控制非购买决策下效用的更大波动性。
Nevo(2000)为了能够完全区分个人相关和非个人相关的效用因素,将效用函数中的收入形式进行了简化,变为
其中
分别代表消费者、产品和时间,
。因为
服从Type I Error,因此个人层面的产品市场份额为
价格的需求弹性为
参数估计
直接的估计方法是将模拟市场份额与真实份额进行拟合
其中
为模型的线性参数,
为模型的非线性参数(
)。这么做的主要问题在于所有参数在目标方程中都是非线性形式存在,大量的品牌效应与时间效应参数会导致参数估计时间非常长。Berry(1994)介绍了方程转化,将线性与非线性参数分开。
参数估计的目标方程为
其中
为工具变量,
为参数函数。为了解得
,可以通过contraction mapping来获得线性部分取值
其中
是模拟市场份额,通过对非线性部分的Markov取样可得。当
足够小时,结构误差为
此时可以看出
以线性形式进入到这一函数中,最后通过GMM即可估计出所有参数:
其中
是
的估计。
数据
BLP必需的数据包括产品的市场份额,平均售价以及产品特征。同时最好能够有人口特征分布的相关变量,否则在模拟市场份额时只能根据假定的参数分布进行模拟。有关市场营销方面的信息,包括广告支出、打折促销活动也能够增加估计的准确性。
有关市场份额的定义,Nevo(2000)给出的建议是尽量增加相关市场的范围,使得外部选项(outside option)的份额明显不为0。当市场在长期增长时,可以将增长趋势也加入到模型中以模拟未来的市场份额。不过市场的定义不应该显著影响估计结果,否则需要改变市场定义。
另外当市场数量远大于商品数量时(比如100个市场,5种商品),那么可以考虑增加产品dummy,从而包括所有未考虑的产品层面的特征。但是这么做等同于
的VCV矩阵没有任何限制,因此需要估计
个参数,会增加计算量,因此需要谨慎使用。
工具变量的选择
BLP中使用的工具变量一般为影响成本而且与需求无关的变量,但是现实中我们很少能够观测到产品品牌层面的成本变量。BLP使用的工具变量主要包括产品特征(除了价格和其他可能与
相关的变量),同一公司其他产品相同产品特征的和,以及其他公司同一产品特征的和。原因在于这些变量也能反映产品生产的成本,同时不直接与当前产品的生产成本相关。
另外Hausman et al. (1994), Hausman (1996)利用面板数据结构提出了可以使用其他区域产品特征作为工具变量。具体操作中,可以使用其他城市同一产品的价格作为工具变量,因为这一价格同样受生产成本影响,但是与产品的market-specific valuation无关。当然,如果存在全国范围内的需求冲击,或者广告是全国范围内的,从而导致需求波动在不同城市之间相关,那么这个变量的有效性就要打折扣。
Computation提前生成关于
和
的模拟值;
给定非线性参数
和mean utility
,计算模拟市场份额;
给定非线性参数
,使用contraction mapping,不断重复第一步,直到
收敛;
在
收敛之后,计算残差
以及GMM目标方程值;
不断更新参数值
,重复3、4,直到GMM目标方程值无法进一步下降。
估测的准确性
BLP的应用较为广泛,但是对于论文应用的估测结果被批评并不严谨。一般而言BLP的参数估计准确需要以下条件:内层的循环收敛标准非常严,比如1e-13
外层的循环收敛标准相对比较严,比如1e-7
在GMM估计中指定对于参数的偏导数形式
在计算模拟市场份额时加入足够的模拟值
初始参数值不能离真实值太远。可以先进行简单的logit或nested logit估计,用这个估计结果作为初始值,或者random coefficient逐一加入到估计模型中。
计算效率
BLP算法的一大缺点在于大量计算时间被花在计算“错误参数值”当中,这也是所有nested fixed point(NFP)算法的共同缺陷。比如计算了20个外层循环后,内层循环可能已经计算了上百万次,而内层循环又因为包含了指数运算因此计算效率很低。有些人会放宽内层收敛标准,而这又会进一步导致最终系数估计准确性降低。
一个改进算法是Mathematical Programming with Equilibrium Constraints (MPEC)算法(Dube, Fox, and Su, Econometrica, 2013)。在MPEC算法中,
这一算法同时搜寻
,其中
是非线性参数,
是线性参数部分(可以很高维度)。有关市场份额的限制只在最终解才成立,而且可以使用Jacobian, Hessian矩阵的sparse特征。所以这个方法适用于产品维度较高的问题。
Reference
Berry, S., Levinsohn, J., & Pakes, A. (1995). Automobile Prices in Market Equilibrium. Econometrica, 63(4), 841–890. https://doi.org/10.2307/2171802
Berry, S. T. (1994). Estimating Discrete-Choice Models of Product Differentiation. The RAND Journal of Economics, 25(2), 242–262. https://doi.org/10.2307/2555829
Hausman, J., 1996, “Valuation of New Goods under Perfect and Imperfect Competition,”in T. Bresnahan and R. Gordon, eds., The Economics of New Goods, Studies in Income and Wealth, Vol. 58, Chicago: National Bureau of Economic Research.
Hausman, G. Leonard, and J.D. Zona, 1994, “Competitive Analysis with Differentiated Products,”Annales d’Economie et de Statistique, 34, 159–180
Nevo, A. (2000). A Practitioner’s Guide to Estimation of Random-Coef cients Logit Models of Demand. Journal of Economics & Management Strategy, 36.