![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
stata
文章平均质量分 74
celine0227
这个作者很懒,什么都没留下…
展开
-
psm的stata实现
在经济学中,我们通常希望评估某项公共政策实施后的效应,为此,我们构建 "处理组" 和 "控制组" 以评估「处理效应 (treatment effect)」。然而,我们的数据通常来自非随机的观察研究中,处理组和控制组的初始条件不完全相同,故存在「选择偏差 ( selection bias)」问题。「倾向得分匹配 (PSM)」法使用倾向得分函数将多维向量的信息压缩到一维,然后根据倾向得分进行匹配。这样可以在既定的可观测特征变量下,使得处理组个体和控制组个体尽可能相似,因而可以缓解处理效应的选择偏差问题。原创 2024-02-20 17:06:24 · 3587 阅读 · 0 评论 -
双变量probit模型
该模型是Probit模型的拓展,适用于模型中有两个结果变量且假定方程组的随机扰动项之间存在相关性,模型中的方程需同时进行估计。如果这两个二元变量的结果是不相关的,我们可以估计两个独立的 Probit 模型,如果这两个二元变量的结果是相关的,使用Probit 模型会导致估计结果偏差并影响结论,则需要使用 Bivariate Probit 模型。分别为标准化的二维正态分布的概率密度函数 (PDF) 和累积分布函数 (CDF), 这个标准化的二维正态分布的期望为 0 , 方差为 1 , 而相关系数为。原创 2024-01-07 10:47:50 · 3895 阅读 · 0 评论 -
多时点DID
对于 Time-varying DID 来说,即使没有了统一的政策时点,由于每一个个体进入实验组的时点是确定的,我们可以通过当前年份与该个体的政策时点相比较,就可以得到该个体的前 N 期到后 N 期,从而观察动态的政策效果。换句话说,Standard DID 结合 ESA 方法所生成的时期虚拟变量是一种绝对的时间尺度,即观测政策在某个样本时期的效果,而 Time-varying DID 利用 ESA 方法所需要的是相对的时期,即观测政策效果在个体接受处理的前 N 期和后 N 期的变化。原创 2024-01-07 21:09:05 · 1684 阅读 · 0 评论 -
离散被解释变量
因为在两点分布的情况下,稳健标准误就等于MLE的普通标准误,如果模型设定正确,则无需使用稳健标准误。而如果模型设定存在问题,则probit 和logit并不能一致估计相关系数,采用稳健标准误的意义也不存在了。存在过度分散的情况下,但对被解释变量的方差函数并不清楚地时候,可采取泊松回归+稳健标准误的方式, 但在了解方差函数的情况下,当然负二项回归能够提供更加有效的估计。总体而言,差别存在于对被解释变量的残差的前提假定不同:probit假定的是正态分布,Logit假定的是logitistic分布。原创 2022-12-16 11:57:27 · 1926 阅读 · 1 评论 -
stata的时间序列
stata的时间序列是从1960年1月1日开始的,季度数据是从1960q1开始的;第一个时间数据就是0,因此tq(1960q1)返回的是0。其中的101表示,1960q1和1985q1间隔了101个季度,我们需要优化格式来提升可读性,使用format函数。此时需要通过tsset声明时间序列的时间变量。tq函数的意义是标记时间序列的第一个时间点。1. stata中的时间序列。原创 2022-12-15 14:17:02 · 5629 阅读 · 0 评论 -
文件的纵向合并
在进行数据最初处理我们需要合并多个excel文件。原创 2022-12-01 11:23:05 · 6070 阅读 · 0 评论 -
追踪程序运行
set trace on命令主要功能是帮助我们追踪程序的运行过程,展示详尽的运算结果,例如:运行以下回归时加入set trace on 命令原创 2022-05-31 21:28:14 · 342 阅读 · 0 评论 -
样本选择模型 & 处理效应模型
一、样本选择偏差与自选择偏差样本选择偏差样本选择偏差的非随机选择机制在于对样本的选择不随机。在样本数据的采集过程中,只对某部分群体进行调查,但这部分群体与其他群体在某些方面的特征差异较大,因此根据这样的样本做回归得到的普适性结论并不可信。体现在具体的数据集中就是,数据集中只有特定群体的样本,或者,虽然有全部群体的所有解释变量数据,但除特定群体之外的其他群体的被解释变量数据缺失,在这两种情况下进行的回归,都将直接忽视其他群体的样本信息(y缺失的样本在参与回归时将被drop掉)。实质上,样本选择偏差说的原创 2022-05-16 19:02:59 · 8379 阅读 · 1 评论 -
聚类稳健标准误
一、为什么?对样本做回归分析的核心是使用最小二乘法去估计模型里的参数,比如核心解释变量前面的系数。我们通过最小二乘法使得残差平方和最小,求得样本估计系数。如果进行一次估计,由于干扰项e的存在,估计值与真实值之间一定存在差异。样本估计值与真实值之间的差别中,误差项起了关键作用。误差项是一个随机变量,每次估计都会得到不同的差异值。关于样本估计系数性质的讨论,都以误差项为核心。我们希望样本估计系数特别好,接近真实值,所以必须有良好的性质,而良好的性质需要有前提条件,也就是一些假设。比如,我们希望反复抽原创 2022-04-25 15:48:45 · 28929 阅读 · 4 评论 -
三重差分模型
1. 为什么使用三重差分法?双重差分法的重要假设是对照组和实验组的时间趋势一样,而当控制组和实验组的时间趋势不同,则无法得到一致的实验估计量,需要进一步改进双重差分估计量。三重差分法的原理假设美国 B 州针对 65 岁或以上的老年人 (实验组,Treat = 1) 引入一项新的医疗保健政策,其他年龄群体不适用。考察此政策对健康状况的影响,选用 B 州 65 岁以下群体 (old = 0) 作为对照组。由于人的健康状况随时间的变化并不是线性的,而不同年年龄组的个体的健康状况变化的时间趋势也存在差异原创 2022-03-29 11:50:47 · 12708 阅读 · 0 评论 -
工具变量检验
用IV做2SLS回归时,需要对IV进行三个方面的检验:一、不可识别检验即检验工具变量的个数是否少于内生解释变量的个数,使用的统计量是Anderson LM 统计量/Kleibergen-Paap rk LM统计量。这里p值小于0.01说明在 1%水平上显著拒绝“工具变量识别不足”的原假设,也就是要求p值不能大于0.1。检验时加robust是Kleibergen-Paap rk LM统计量;不加robust是Anderson LM 统计量。也就是说在iid情况下看Anderson LM 统原创 2022-03-15 17:31:20 · 20296 阅读 · 0 评论 -
中介效应的问题
1. 控制变量(1) 必须控制的情况如果核心解释变量是w,x会影响y,同时x和w相关,那么x必须作为控制变量。(2)不能控制x是y的结果,不能控制“事后”变量。(3)可控制可不控制的情况这是最类似于“中介效应”的一种情况,控制和不控制x都有道理,关键看我们想讲的故事是什么。比如说,如果我们希望研究教育年限(w)对于收入(y)的影响,要不要控制“是否拿到了学位证”(x)这一变量?如果不控制,那么意思是说我要看的是每多上一年学对收入的“总影响”;而如果控制了x,那就是在排原创 2022-02-09 09:26:45 · 4997 阅读 · 0 评论 -
heckman两阶段的stata命令
1. Heckman两阶段法作用在学术问题研究中,我们在考察因果关系时,经常会遇到因果关系考察中的内生性问题。一般而言,内生性问题主要来源于以下几个方面:(1)反向因果关系,即自变量影响因变量,因变量反过来也影响自变量,从而导致内生性。(2)测量误差;(3)遗漏变量,遗漏的该变量与自变量相关并进入误差项,从而导致自变量与误差项相关,出现内生性问题;(4)样本自选择。然而,实证研究中所产生的内生性问题,容易导致的后果是所研究结论有偏且不一致性,使得所得结论不具有稳健性。在实证研究中,我们将有多种解决方面.原创 2022-01-13 19:38:25 · 28686 阅读 · 0 评论 -
聚类调整标准误笔记
1. 何为聚类标准误标准误在统计推断中发挥着至关重要的作用,直接影响着系数的显著性和置信区间,并最终影响到假设检验的结论。因此,正确地估计标准误在实证分析的过程中显得尤为重要。当干扰项满足「独立同分布 (iid)」 条件时, OLS 所估计的标准误是无偏的。但是当误差项之间存在相关性时,OLS 所估计的标准误是有偏的,不能很好地反映估计系数的真实变异性 (Petersen, 2009),故需要对标准误进行调整。在多种调整标准误的方式中,「聚类调整标准误 (cluster)」是一种有效的方法 (Peter原创 2022-01-12 08:53:45 · 10892 阅读 · 0 评论 -
数据标准化处理
一、为什么进行标准化处理在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和原创 2021-11-06 17:36:24 · 23080 阅读 · 0 评论 -
广义精确匹配-Coarsened Exact Matching (CEM)
严格来说,即使发表的论文,协变量在匹配后也不一定更加平衡,往往是某些变量的平衡性得到提升,而另一部分变量的平衡性有所下降。因此,我们介绍一种无需检查协变量平衡性、模型依赖度更低的匹配方法——Coarsened Exact Matching (广义精确匹配 \ 粗粒度精确匹配)。1. CEM原理介绍常用的 PSM 方法往往无法确保在匹配后提升平衡性,而 Coarsened Exact Matching(CEM) 可以通过控制观测数据中混杂因素对政策结果影响使处理组与控制组的协变量的分布尽可能保持平衡.原创 2021-10-31 16:27:38 · 4496 阅读 · 1 评论 -
PSM倾向得分匹配
1. 简要介绍我们以是否上大学() 对收入() 的影响为例来说明这个问题。这里,先讲二者的关系设定为如下线性模型:显然,在模型 (1) 的设定中,我们可能忽略了一些同时影响「解释变量」——是否上大学() 和「被解释变量」——收入() 的因素,例如,家庭背景、能力、动机、个人兴趣等。这些因素被称为「共同因素 (Common Factors)」,因为他们同时影响被解释变量和解释变量,但又往往不可观测或无法获取数据。从计量经济学的角度来讲,在模型设定中遗漏的「共同因素」都会「跑到...原创 2021-10-30 17:45:09 · 31887 阅读 · 2 评论 -
常用的27个Stata命令
1. 直接导入csv格式数据insheet using name.csv, clear2. 修改变量长度format var %20.2g3. 删除重复值sort var1 var2duplicatesdrop var1 var2, force4. 数据合并use data1, clearmerge m:m var1var2 using data2drop if _merge==2drop if _merge==1drop _merge5. 生成一期滞后项原创 2021-10-30 12:34:49 · 20448 阅读 · 0 评论 -
了解原始数据
在进行实证研究之前,我们有必要熟悉自己的原始数据。1. 查看数据 list in 1/10通过这个命令,我们可以查看该数据库第1到第10个数据,对数据有一个初步的了解。屏幕显示的结果如下:2. 查看数据类型describe通过这个命令,我们可以查看这个数据集的简要介绍,包括了样本数量(obs:100)、变量数量(vars:10)、大小(size:3800)、以及每个标量的简要介绍。屏幕显示的结果如下:3. 单变量分析3.1 Codebook Codebook这个命令适合于原创 2021-10-29 16:14:23 · 2938 阅读 · 0 评论 -
Heckman 两阶段法及与工具变量法的区别
一、适用范围Heckman两阶段模型适用于解决由样本选择偏差(sample selection bias)造成的内生性问题。在经济学领域,样本选择偏差的典型例子是研究女性的受教育情况对女性工资的影响。按照这个思路,一般会去问卷收集或在哪个网站下载部分女性的受教育情况,工资,及其他特征数据,例如年龄,毕业院校等级等个人特征,然后做回归。不过这样做有一个问题,就是登记的女性,都是在工作的,但是许多受教育程度较高的女性不工作,选择做家庭主妇,这部分样本就没有算在内,样本失去随机性。这就导致模型只是用到了在原创 2021-10-29 11:59:36 · 18904 阅读 · 1 评论 -
DID模型
政策评估 (Policy Evaluation) 是当前公共经济学和劳动经济学中最常用的实证方法。其目的在于评价一项既有政策的效果,此类研究关注的是该政策的处理效应 (Treatment Effect)。由于政策往往是对一类特定的人群起作用,政策评估的基本思想是将这类人群与其他人群进行比较。目前,双重差分模型 (Difference-in-Differences) 是用于政策评估的常用模型。1.1 因果识别思路 对特定个体,表示第期的个体受到政策影响 (处理组),表示第期的个...原创 2021-10-24 10:46:01 · 26875 阅读 · 3 评论 -
Tobit模型
1. Tobit模型介绍Tobit模型适用于归并数据,比如家庭娱乐消费这类数据的特点是如果y大于0,则我们可以观察到它;但是如果y小于等于0,那么我们只能观察到0,这种属于左归并。我的理解是,虽然一部分人的消费为0,但是他们不愿意参与消费的程度是不一样的,普通的模型无法反映这种特征。当然也可能存在y大于等于c,我们只能观测到c的右归并情况。最后,还存在着左右双侧归并的情况。陈强老师的书中提供了证明,这类数据使用一般的OLS估计是不一致的。需要使用Tobin1958年提出的MLE估计方法,也称Tobi原创 2021-10-17 10:01:40 · 13264 阅读 · 0 评论 -
解决内生性问题
1. 内生性来源内生性问题 (endogeneity issue) 是指模型中的一个或多个解释变量与误差项存在相关关系。换言之,如果 OLS 回归模型中出现,则模型存在内生性问题,以致于 OLS 估计量不再是一致估计。进一步,内生性问题主要由以下四种原因导致。1.1 遗漏变量在实证研究中,研究者通常无法控制所有能影响被解释变量的变量,因此遗漏解释变量 (omitted variables) 是很常见的事情。假设 OLS 模型中解释变量为和,研究者遗漏的解释变量为如果遗漏的变量...原创 2021-10-14 20:27:36 · 23113 阅读 · 1 评论 -
一行代码实现安慰剂检验
1. 什么是安慰剂检验随着「因果推断方法」在实证研究中的使用比例不断提升,越来越多的文章也会进行安慰剂检验。其检验基本原理与医学中的安慰剂类似,即使用「假的政策发生时间或实验组」进行分析,以检验能否得到政策效应。如果依然得到了政策效应,则表明基准回归中的政策效应并不可靠。进一步,经济结果可能是由其他不可观测因素导致的,而非关注的政策所产生。2. 为什么要进行安慰剂检验在实证研究中,无论是稳健性检验,还是安慰剂检验,亦或是异质性分析,其背后真实的目的只有两方面: 第一,使得文章故事性更强,逻原创 2021-09-16 15:42:44 · 16305 阅读 · 10 评论 -
二值选择模型
被解释变量是离散的一、二值选择模型(两种选择)为了使y的预测值总是介于[0,1]之间, 在给定x的情况下,考虑y的两点分布概率: a. 如果为标准正态的累积分布函数(cdf),则该模型成为“Probit”b. 如果为“逻辑分布”的累计分布函数,则 该模型成为“Logit”。由于逻辑分布累积分布函数有解析表达式,存在解释表达式,回归系数更好解释。Logit回归的系数,转换为or值后,表示的是p/1-p的大小。Probit模型没有经济意义,需要通过边际效应进行求值..原创 2021-09-16 22:45:56 · 8657 阅读 · 0 评论 -
固定效应模型
一、面板数据优点1. 可以解决遗漏变量的问题:遗漏变量由于不可观测的个体差异或“异质性”造成的,如果这种个体差异“不随时间而改变”,则面板数据提供了解决遗漏变量问题的又一利器。2. 提供更多个体动态行为的信息:由于面板数据同时有横截面与时间两个维度,优势它可以解决单独的截面数据或时间序列数据所不能解决的问题。3. 样本容量较大:由于同时有截面维度与时间维度,通常面板数据的样本容量更大,从而可以提高估计的精确度。估计面板数据长假定个体的回归方程拥有相同的斜率,但可以有不同的截距,以此来捕捉异质原创 2021-09-16 17:36:15 · 66621 阅读 · 3 评论 -
估计残差项
1. 预测值xi:areg ln_Cash_ratio1 Size FCF NWC SIGMA MB_1 Leverage i.year,absorb(stkcd)predict ln_Cash_ratio1_hat很显然,predict后面加或不加option选项xb,生成的都是线性拟合值(linear prediction),跟残差项没半点关系。你用predict u或者predict e,得到了两个模型的拟合值,区别仅仅在于一个名字叫u,一个名字叫e。2. 提取残差项(1)在截原创 2021-09-08 22:07:40 · 1516 阅读 · 0 评论 -
Stata字符串函数:快捷提取字符信息
1.substr()函数的用法语法:substr(s,n1,n2)a. s为需要进行提取的字符串b. n1表示提取的起始位置。c. 对于不同编码的文本,n2代表不同含义。对于纯ASCII编码的文本,n2表示要提取字符长度为n2的字符串。而对于其他非ASCII编码的文本来说,n2表示要提取字节长度为n2的字符串。(当然,对于那些纯ASCII编码的字符来说,上述两种说法是等价的。需要注意的是,所有utf-8编码中超出ASCII编码范围的字符都是两个字节以上。)dis substr('a原创 2021-09-05 10:40:41 · 43477 阅读 · 2 评论 -
stata计量之前数据清洗的必备步骤
数据清理第一步:整体数据查看一、查看识别变量--isid、duplicates一般而言,每个数据集都有唯一一个识别每条记录的识别符(重复测量的长型数据除外)。Stata检查唯一识别符是否唯一的命令为isid(或许是is this an ID的缩写)。isid允许同时检查多个唯一识别符,如果没有返回值,就说明是唯一的(没有消息就是好消息);如果不唯一,就会出现红色提示variable *** does not uniquely identify the observations。如采用下面例子中的查重原创 2021-08-24 15:17:48 · 27615 阅读 · 0 评论