【笔记】基于TF-IDF 算法的文本相似度以衡量技术革新

该研究利用TF-IDF算法,通过文本分析衡量专利的相似性和重要性,探讨技术创新与生产率的关系。通过构建包含时间权重的BIDF指标,解决传统TF-IDF忽视时间顺序的问题,从而更准确地评估专利的新颖性和影响力。实验结果显示,基于文本的专利质量与未来引用和市场价值高度相关,且技术创新指数与生产率增长紧密关联。
摘要由CSDN通过智能技术生成

原文名称:

Kelly, B., Papanikolaou, D., Seru, A., and Taddy, M., “Measuring Technological Innovation over the Long Run”, NBER Working Paper No. 25266, 2018

原文链接:

Measuring Technological Innovation over the Long Run | NBER

原载于:

【MLinEcon文献推送20】文本方法衡量技术革新

01 引言

        背景:1.美国的人均实际产出增长超出生产投入的增长,归因于生产率的提高,然而近几十年生产率的增长似乎在放缓。同时,各企业再生产率上也存在很大而持久的差异。2.技术进步的程度难以度量,所以只能构建与之相关的指标,这些指标需要在很长一段时间中可用且可比较。3.专利统计可以是一个很好的切入点。

       传统的方法是通过引文数据来确定专利的创新性,但是引文数据并不是持续可用的。所以这篇文章利用文本分析中文本相似性的测量方法,构建每个新发明的专利和与现有和后续专利之间的联系。将重要(高质量)的专利识别为其内容与之前的专利不同(是新颖的),但与未来的专利相似(是有影响的)。

       全文中,首先对专利相似性和专利重要性的指标构建进行了介绍,然后对这些指标进行实证检验,包括以下三个方面:首先,确定了一份重要专利清单,并检查它们在质量指标方面的得分情况。其次,将质量衡量指标与专利引证联系起来,这是创新文献中衡量专利质量的常用指标。最后,我们检查我们的质量指标和市场价值之间的相关性。然后还进行了长期创新的衡量,以及创新和测量生产力的联系。

02 数据的来源

1、数据搜集

       1976年开始的专利数据来自美国专利商标局,1976年后的数据来自谷歌。

2、文本数据转为数字数据

       将专利的文本内容转换为数字数据进行统计分析。使用 NLTK Python工具包将每项专利的 "摘要"、"权利要求 "和 "描述 "部分解析为单个术语。将所有非单词文本元素,如标点符号、数字和 HTML 标签剥离出来,并将所有大写字母转换为小写字母。接下来,删除了947个 "停顿词 "的所有出现,其中包括介词、代词和其他几乎没有语义内容的词。为了减少分析的负担,降低文本数据的稀疏性。他们排除了样本中900多万件专利中出现次数少于20次的术语。这样就排除了33,954,834个术语,最终形成1,685,416个术语的词典。

        将文本转换为文件术语矩阵。(DTM),记为 C。C 的列对应词,行对应专利。C 中的每一个元素,用 Cpw 表示,计算一个给定的单字短语(以 w 为索引)在一个特定的专利(以 p 为索引)中的使用次数。

03 专利相似性的定义

        用 TF-IDF 算法,"词频"(TF)和"

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值