【笔记】基于TF-IDF 算法的文本相似度以衡量技术革新_measuring technological innovation over the long r-CSDN博客

本文链接：https://blog.csdn.net/pajamas_397/article/details/127159497

该研究利用TF-IDF算法，通过文本分析衡量专利的相似性和重要性，探讨技术创新与生产率的关系。通过构建包含时间权重的BIDF指标，解决传统TF-IDF忽视时间顺序的问题，从而更准确地评估专利的新颖性和影响力。实验结果显示，基于文本的专利质量与未来引用和市场价值高度相关，且技术创新指数与生产率增长紧密关联。

摘要由CSDN通过智能技术生成

原文名称：

Kelly, B., Papanikolaou, D., Seru, A., and Taddy, M., “Measuring Technological Innovation over the Long Run”, NBER Working Paper No. 25266, 2018

原文链接：

Measuring Technological Innovation over the Long Run | NBER

原载于：

【MLinEcon文献推送20】文本方法衡量技术革新

01 引言

背景：1.美国的人均实际产出增长超出生产投入的增长，归因于生产率的提高，然而近几十年生产率的增长似乎在放缓。同时，各企业再生产率上也存在很大而持久的差异。2.技术进步的程度难以度量，所以只能构建与之相关的指标，这些指标需要在很长一段时间中可用且可比较。3.专利统计可以是一个很好的切入点。

传统的方法是通过引文数据来确定专利的创新性，但是引文数据并不是持续可用的。所以这篇文章利用文本分析中文本相似性的测量方法，构建每个新发明的专利和与现有和后续专利之间的联系。将重要（高质量）的专利识别为其内容与之前的专利不同（是新颖的），但与未来的专利相似（是有影响的）。

全文中，首先对专利相似性和专利重要性的指标构建进行了介绍，然后对这些指标进行实证检验，包括以下三个方面：首先，确定了一份重要专利清单，并检查它们在质量指标方面的得分情况。其次，将质量衡量指标与专利引证联系起来，这是创新文献中衡量专利质量的常用指标。最后，我们检查我们的质量指标和市场价值之间的相关性。然后还进行了长期创新的衡量，以及创新和测量生产力的联系。

02 数据的来源

1、数据搜集

1976年开始的专利数据来自美国专利商标局，1976年后的数据来自谷歌。

2、文本数据转为数字数据

将专利的文本内容转换为数字数据进行统计分析。使用 NLTK Python工具包将每项专利的 "摘要"、"权利要求 "和 "描述 "部分解析为单个术语。将所有非单词文本元素，如标点符号、数字和 HTML 标签剥离出来，并将所有大写字母转换为小写字母。接下来，删除了947个 "停顿词 "的所有出现，其中包括介词、代词和其他几乎没有语义内容的词。为了减少分析的负担，降低文本数据的稀疏性。他们排除了样本中900多万件专利中出现次数少于20次的术语。这样就排除了33,954,834个术语，最终形成1,685,416个术语的词典。

将文本转换为文件术语矩阵。(DTM)，记为 C。C 的列对应词，行对应专利。C 中的每一个元素，用 Cpw 表示，计算一个给定的单字短语（以 w 为索引）在一个特定的专利（以 p 为索引）中的使用次数。