【已匹配】1998-2014年工业企业数据库和企业专利匹配结果(观测值近500万,手动清洗)

附件为1998—2014共17年间我国工业企业数据库与企业专利数据(数据来源是多
方检索的,详见下文)的联合匹配结果,已经按企业代码id精确匹配并手动清洗,近50
0万个观测值(将近十个G的数据大小,只能用百度网盘分享,谢谢大家理解),经我个人
以及两位在职教授(研究方向分别为经济统计和关税理论、政策)多次校对、核实,数据质
量较高,稳健且显著,具有较高的科研价值,助力大家多发C刊!变量包括1998—20
14年工业企业数据库所有变量,并匹配企业专利数据库(数据来源见下文)的几种专利数
据,要点如下:
1.现有工业企业数据库与各大数据库的匹配存在几大问题,致使基于这些
数据集进行的实证分析显著性有限甚至存在严重偏误。首先,对匹配后的数据清洗不足,极
端值、异常值甚至经济指标出现负数的情况屡见不鲜,即使是因为工业企业数据库本身存在
登记错误和一些偏差,将这些数据进行进一步的清洗,去除、填补异常部分也是必要的,向
您承诺,本面板数据集对工业企业数据库本身进行了详尽、充分的清洗和核查,确保稳健性
。其次,匹配方法混乱,匹配后不同数据库之间的企业ID并非一一对应甚至匹配错误(A
企业在工企数据库的指标对应了B企业的专利数据),这种低级错误无疑会造成回归结果的
不一致甚至伪回归;此外,假数据层出不穷,根本不存在1997年和2015年的工业企
业数据库,居然有人大肆分享98-14区间外的数据?猜测是用上市公司等数据库编造一
定的指标骗取钱财,严重鄙视。个人承诺,此面板数据尽力避免了上述问题,亲测稳健性和
显著性有保证,适合各方向的微观计量研究。

2.该面板数据的指标(变量)包括:

由于涵盖指标为几百个,此处只能列举部分重要指标,实际指标体系极为丰富,比海关数据
库要丰富数倍,能想到的指标都有,做任何方向的微观计量研究均可,既可单独当做清洗好
、匹配好的工业企业数据库用(其实一个清洗好的工业企业数据库现在至少100块,并且
绝对没我处理的“干净”,可能存在问题),也可以结合专利数据做各种创新模型,方法多
多,点子多多!)①工业企业典型指标:经营活动产生的现金流入、流出(千元);投资活
动产生的现金流入、流出(千元);筹资活动产生的现金流入、流出(千元);研究开发费
;是否适用会计准则(虚拟变量,1为执行,0或空值为不适用);营业成本、营业税金(
千元);公允价值变动收益(千元);年末从业人员数量合计(男性女性分别为单独变量)
;该企业人员的学历构成(研究生、本科、大专、高中、初中以上学历男性、女性分别设置
变量);技术职称数量构成(初级、中级、高级工和初中高级技术职称人员的数量,均以男
性女性区分生成单独的数值变量);国家资本、集体资本、个人资本、法人资本、外商资本
(均以千元计);主营业务收入、利润构成、管理费用等(均以千元计);固定资产折旧、
工业总产值(分为不变价和当年价格计两种指标)等(单位千元)
②企业专利数据相关指
标:包括发明专利申请量、发明专利授权量;实用新型的申请和授权量;外观设计的申请和
授权量;专利申请和授权总量等企业层面重要专利指标(单位为个数)。

3.数据来源为
98-14年的工业企业数据库和专利数据库,部分重要指标的缺失值和极端值是运用Py
thon在国家专利局网站和上市公司数据库内编程手动爬取而得(极个别数据运用的智能
填补方法见下文),并与同门师兄师姐以及老师手动进行数据清洗,去除了极端值和异常值
,甚至从一定程度上解决了登记错误和上报错误这一无法避免的偏差,工作量巨大,实测进
行研究的稳健性极好,适合各个方向的研究,请大家放心使用!

4.个人的研究领域是世
经、国贸与应用微观计量,现于某一中游985(也说不定是中下游98
5...笑)深知
一份优质的数据对于学术研究意义重大,因此我对数据质量作背书,承诺“良心”二字,绝
不让大家上当受骗,请大家擦亮双眼,get靠谱数据!

5.面板数据形成基本操作思路

第一步,参照Brandt(2012)的方法处理工企数据和专利数据(这篇文章可
以私信我发给大家原版链接PDF,是非常好的一篇应用计量理论操作论文);
第二步,
根据企业名称和年份与专利数据进行匹配;
第三步,根据组织代码和年份与专利数据进行
匹配;
第四步,合并第二、三步的匹配数据,并去重;
第五步,手动清洗数据(软件是
Stata和Python,对数据的填补综合运用了极大似然插值法、多项式插值法、线
性插值法,将每种方法的拟合结果与前后数值进行比对,确保最优插值拟合,工作量极大,
效果极好)。 
新鲜出炉的“购买评价”,马赛克部分为这位同学的个人信息,不便公开
,数据质量有目共睹,请大家放心购买!


6.诚挚祝大家科研顺利,幸福快乐;也希望
经管之家论坛蒸蒸日上,为学术交流搭建温馨友好的平台!

7.除了本数据集外,我在论
坛还分享了关于绿色全要素生产率的数据,更是好评如潮!欢迎大家关注:

①2004
-2020年省际绿色全要素生产率及其分解项、原始数据,附带控制变量和理论推导

2000年-2020年共21年我国所有地级市绿色全要素生产率(GTFP),879
9个观测值
③2000-2020年地级市绿色全要素生产率原始数据,281个城市5
901个观测值
④2004-2019年省际绿色全要素生产率及其分解项、原始数据,
附带控制变量和理论推导(比第一个数据少一年,便宜一些,按需购买即可)
   

下载链接:https://download.csdn.net/download/weixin_45892228/89154078

点击下载:【已匹配】1998-2014年工业企业数据库和企业专利匹配结果(观测值近500万,手动清洗)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值