《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》强调“坚持创新在我国现代化建设全局中的核心地位,把科技自立自强作为国家发展的战略支撑”;党的二十届三中全会进一步明确要求“激发全社会内生动力和创新活力”。对于企业而言,创新在企业短期利益和长期发展潜力的评估方面也同样发挥着核心作用,对其经营绩效、未来增长等均具有显著的正向影响。上市公司通常在年报中的“管理层讨论与分析”(MD&A)部分对企业的经营状况、未来发展规划等内容进行详细描述和披露,为外部投资者提供重要信息。
本数据参考谢佳松等(2025),基于上市公司年报中的MD&A部分,建立了适用于描述企业创新活动相关词语的词典,继而基于该词典构建能够较为全面反映上市企业创新活动的文本指标。参考谢佳松等(2025)的做法,筛选出36个词频高于100次的企业创新相关词汇,构成基准创新词典,如下图表所示。
第二步,对MD&A文本进行分词和预处理。利用Python爬取2008-2009年全部A股上市公司企业年报,并转换为txt文本格式,获取各个上市公司年报中的MD&A部分,使用jieba分词库对其进行中文分词。剔除数字、英文表达、中英文标点和常见停用词,删除年报文本常见但无具体含义的词语,对MD&A文本中有明显错误(如拼写错误或分词有误)词语进行人工核对和替换,尽可能避免分词错误带来的测度误差。
数据来源
人工整理,全部内容真实有效。
时间跨度
2008-2023年
数据范围
中国A股上市公司
数据形式
数据格式为Excel形式
数据指标
数据展示
参考文献
谢佳松,樊嘉诚,林建浩.我国上市公司创新活动的测度——基于文本分析的方法[J].统计研究,2025,42(02):70-83.
【下载→
方式一(推荐):主页 ↓个人↓简介
方式二:数据下载方式汇总-CSDN博客