【笔记】A literature review on the state-of-the-art in patent analysis

写在前面:笔记仅供个人学习,错误之处在所难免,欢迎批评指正交流

A literature review on the state-of-the-art in patent analysis

摘要

专利文件的快速增长要求开发复杂的专利分析工具。目前,组织正在使用各种工具来分析专利。这些工具能够执行广泛的任务,例如分析和预测未来的技术趋势,进行战略技术规划,检测专利侵权,确定专利质量和最有前途的专利,以及确定技术热点和专利真空。这篇文献综述介绍了专利分析的最新进展,也介绍了专利分析技术的分类。此外,还介绍了所讨论的工具和技术的关键特征和弱点,并强调了未来研究的几个方向。文献综述将有助于研究者以统一的形式找到与专利分析相关的最新研究成果。

1 Introduction

各组织对分析专利感兴趣的有:
(a) 确定专利的新颖性
(b) 分析专利趋势
(c) 预测特定领域的技术发展
(d) 战略技术规划
(e) 从专利中提取信息以确定侵权行为
(f) 确定R&D任务的专利质量分析
(g) 确定有希望的专利
(h) 技术路线图
(I) 确定技术真空和热点 (vacuums翻译为真空?)
(j) 确定技术竞争对手

文本挖掘技术进一步利用基于自然语言处理的方法、基于语义分析的方法、基于规则的方法、基于属性函数的方法和基于神经网络的方法。另一方面,专利分析的可视化技术也使用某些文本挖掘方法以可视化的形式呈现专利分析的结果。专利分析任务的视觉输出是专利网络、专利地图和数据集群的形式,它们是应用特定算法的结果。专利地图是一种工具,用于通过关键字和关键短语构建地图来可视化专利之间的关系[18]。专利网络的概念类似于广泛使用的网络概念。然而,在专利网络中,节点代表专利,而网络中的链路代表节点或专利之间的关系[8]。聚类是一种数据挖掘概念,用于根据类别将数据项分组为聚类或组。聚类技术使用数据的无监督分类[59],并且已经用于专利分析中,用于根据相关性对专利数据进行聚类。

2 Methodology

3. Background and significance of patent analysis

现有的专利搜索语料库包括分散在不同数据库中的数百万项专利,这些数据库通过最新的网络资源集成在一起。例如,专利文件最受欢迎的专利库是美国专利商标局(USPTO) [5]、欧洲专利局(EPO) [6]和日本专利局(JPO) [7]。然而,与某些技术领域的发明相关的不断增加的技术数据量很难出于前面部分所述的各种目的进行分析。因此,人们不能再完全依靠专家的知识和技能来分析专利[9],这就需要使用计算机辅助工具来分析专利[8]。利用自动化工具进行专利分析不仅减轻了专利分析专家手动分析专利的繁重任务,还加快了分析过程。专利分析涉及一系列步骤,包括从专利数据库中提取专利,从专利中提取信息,以及分析提取的信息以推断逻辑结论。

Text mining techniques for patent analysis

参考文献提出了遵循TRIZ趋势和文本挖掘方法的技术转让方法和技术。[22]。TRIZ是俄语首字母缩略词,代表“创造性问题解决理论”对于解决问题和技术分析,TRIZ被认为是一个重要的理论,包括工具,方法和知识库[22,56,58]。此外,TRIZ趋势通过识别不同的趋势阶段来表达进化状态,并通过分析和分类专利来预测改进[57]。

4. Patent analysis techniques

在这里插入图片描述

4.1. Text mining techniques

4.1.1. Natural language processing (NLP) based techniques

基于自然语言处理的文本挖掘方法大致分为:(1)基于关键词的方法和(2)基于主题的方法[22]。
虽然基于关键字的文本挖掘方法易于实现,但它们缺乏重要技术概念和关系的表示。基于关键词的方法包括预先定义需要专家知识的关键词和关键短语。另一方面,基于SAO的文本挖掘技术能够通过表示关键技术组件之间的关系来分析非结构化信息[43]。专利文件被转换成结构,每个结构由一个主体、一个动作和一个客体组成。不像基于关键词的方法依赖于由出现频率组成的关键词向量[22]。SAO结构直接从专利文献[33]中提取。标准作业组织结构允许以问题解决的形式表示概念,并且通常基于TRIZ [34]。然而,基于自然语言处理的方法存在词汇和语法歧义的问题,也缺乏表达语法结构之间的语义关系。尽管有其局限性,但基于自然语言处理的方法在处理包含大量文本数据的大型文档时非常有效。

刘等人[3]开发了一个名为专利检索和分析平台(PRAP)的专利检索和分析集成系统,以帮助公司更有效地管理专利文件。提出了一种结合书目耦合和文本挖掘方法的混合结构,以提高搜索精度。文本挖掘用于从大量非结构化文档中发现模式和趋势。PRAP的主要组件是字段匹配引擎和文本挖掘引擎。领域匹配引擎利用书目模式发现算法来发现集合中相关专利记录的集群。PRAP文本挖掘引擎是通过向量空间模型实现的。文本挖掘引擎使用管道,如标题管道、摘要管道、专利权利要求管道和详细描述管道。由于不同类别的搜索者对相似性的定义可能不同,因此PRAP允许用户选择在文本挖掘分析中启用哪个管道。领域匹配引擎和文本挖掘引擎的结果通过加权模型进行组合。最终结果是通过计算每个专利记录的置信指数获得的,相似性的最终得分是使用进行搜索的人提供的一些加权参数计算的。

Yoon等人[17]介绍了一种通过分析基于SAO的内容来动态构建专利地图的方法,以识别技术竞争趋势。该方法应用自然语言处理规则,提取专利结构,生成专利地图。提议的方法包括四个步骤。首先从专利数据库中收集专利数据,然后通过自然语言处理对专利文档进行句法分析。句法分析的输出以提取的语法结构的形式呈现。因此,基于基于语义相似度的相似度度量语义相似度,并构建专利相似度矩阵。然后,通过多维标度(MDS)来探索标准组织结构中的相似性,并以动态专利地图的形式可视化输出。MDS指的是用于信息可视化的统计技术,以发现数据中的相似和不同之处。生成的地图可有效识别技术真空和技术热点。然而,所提出的方法的缺点是,使用MDS可视化专利地图和k-means进行聚类会导致信息丢失,最终导致不准确的聚类。在专利分析中,kmeans用于呈现视觉输出,例如将提取的语言结构聚类以形成专利地图。k均值是一种聚类算法,用于根据属性将对象分配到k个组中。

Park等人[22]提出了一种新的方法来确定转让技术的潜在专利。TRIZ进化趋势用于评估专利中的技术。此外,为了自动分析大量的专利数据,使用了基于标准的文本挖掘技术。拟议的研究包括从专利数据库中收集要分析的专利,确定技术生命周期阶段,并根据标准操作规程提取结构。标准文本挖掘方法利用自然语言处理技术从专利文档中提取语言结构。在语义相似的基础上,确定了语义结构的演变趋势。此外,该方法能够识别有前景的专利。如果一项专利与未来重要的TRIZ趋势相关,则该专利被视为高未来价值专利。随后根据相似性得分对专利进行排序并进行分类。然而,在对TRIZ趋势进行一般分类时,这种方法表现出弱点,最终可能不适用于所有技术领域。因此,为了使该方法更加有效,需要由了解TRIZ趋势的领域专家对分类进行修订。

Park等人[27]提出了一种基于SAO的智能专利分析系统,称为TechPerceptor,该系统利用自然语言处理的语法分析从每个专利中提取功能信息。该系统在专利语义分析的基础上构建专利地图和专利网络。该系统利用专利之间的语义相似性构建专利地图和专利网络。技术感知机的体系结构主要包括三个模块:(1)专利挖掘模块,(2)基于专利地图的智能模块(PMIM),以及(3)基于专利网络的智能模块(PNIM)。PSMM模块交互检索过程数据,使用NLP从专利文本中提取SAO结构。随后,语义相似性度量模块将同义词合并成代表性短语,并使用本体数据库来测量一般术语和特定领域术语的语义相似性。PMIM基于专利相似性构建专利地图,并识别技术热点和专利真空。专利的新颖性是通过生成专利地图和测量专利之间的技术距离来确定的。相对远离其他专利的专利被认为是离群技术。PNIM利用专利相似性和标准组织结构构建网络,分析快速发展的技术趋势。PNIM使用专利网络生成器来可视化特定技术领域的技术关系信息。

Choi等人[32]提出了一种基于标准操作系统的文本挖掘方法,该方法通过挖掘和检查专利信息来开发技术树。根据相似性对通过标准组织结构提取的信息进行分类。提出的方法的两个重要过程是开发从专利构建源数据的程序和从该数据构建技术树的方法。自然语言处理被用于提取结构化抽象概念,文本挖掘技术被用于结构化抽象概念的分析。计算各结构之间的相似性,并生成相似性矩阵。提出的基于语义的文本挖掘方法包括以下步骤:(1)专利文献选择,(2)语义特征结构提取,(3)语义特征相似度的确定,(4)词语短语和动作对象分类,(5)词语短语类型的识别,以及(6)对象动作组合的识别。此外,作者开发了一个TechTree分析器,使用技术元信息(如受让人和提交日期)进行分析。所提出的方法已应用于生成质子交换燃料电池技术的技术树,预计将对R&D政策制定者在技术规划过程中非常有益。然而,在所提出的方法中,用于提取专利结构以生成专利地图的工具没有被集成。因此,将非结构化数据转换成结构化数据的任务变得不方便。

Sungchul等人提出了一种将技术与组织的战略业务目标相关联的技术路线图方法。采用TRM的公司和政府旨在最小化成本,同时保持客观性。已经提出了基于关键词的定量方法来产生技术成熟度模型,但是它们不能代表技术在相关领域中是如何使用的,以及它们对其他技术会产生什么影响。因此,由Sungchul等人[34]提出的基于SAO-TRM的方法似乎适合定量TRM。通过文本挖掘和基于自然语言处理的技术,从专利文档中提取出结构化抽象概念。此外,所提出的专利定量分析方法引入了“功能”的概念,以支持利用专利定量分析方法进行专利定量分析。一个函数可以很容易地提供关于如何使用该技术的信息。产品-功能-技术模型使用产品-功能-技术(PFT)图来辅助决策。PFT地图的目的是概述产品和技术发展方向之间的联系。通过质子交换燃料电池技术的案例研究,评价了该方法的有效性。研究结果表明,该方法有助于R&D管理者在TRM过程中进行决策。然而,该方法手动分析技术单词短语以识别它们的类型。因此,这种方法不能完全支持基于SAO-TRM的技术道路制图过程。

Gerken和Moehrle [48]提出了基于语义分析的方法来识别专利中高度新颖的发明。该方法的第一步是从文本专利数据中提取语义结构。通过词性标注对专利进行句法分析,提取语义结构。参考文献中的作者。[48]使用知识列表软件[51]提取SAO结构。在第二步中,识别语义结构,并执行特定于领域和情境相关元素的语言分析。分析对于解决特定领域或情况下可能出现的同义词问题非常重要。在第三步中,执行相似性度量以确定专利的新颖性。基于语义结构的比较创建相似性矩阵。一旦构建了相似性矩阵,通过比较矩阵的值来确定专利的新颖性。该方法通过汽车行业的案例研究进行了评估,作者声称语义专利分析在识别高度新颖的专利方面非常有效。这种方法的缺点是,它通过计算新专利和现有专利之间的距离来确定新颖性。然而,参考文献中作者提出的方法可能会忽略专利之间相似性的许多其他方面。[48]。因此,该方法需要进一步改进,以处理确定专利新颖性所需的复杂关系。

4.1.2. Propertyefunction based techniques

Yoon and Kim[35]提出了一个名为趋势感知机的系统,用于从专利中识别技术趋势。趋势感知器利用基于属性函数的方法来帮助专家识别发明概念,并为技术预测执行演化趋势分析。发明概念是通过属性和功能提取的。系统的属性和功能是通过对文本数据的语法分析来实现的。为了自动检索属性和函数,趋势感知器使用NLP。为了方便专家分析技术趋势,趋势感知机创建了属性和功能的网络。同样,该系统通过TRIZ趋势分析的自动化提出改进建议。TRIZ趋势分析的结果描述了一项技术的具体演变,最终有助于预测技术的未来。

尹和金[36]提出了一个基于产权功能的专利网络(PFPN),以获得对技术趋势的理解和发展未来的战略。属性-函数方法的好处是它消除了为关键短语预定义关键字或模式的需要。通过自然语言处理,可以从专利文档中挖掘属性和功能。作者将每个专利文件表示为一个矩阵,该矩阵将属性、功能和并发性编码。随后,通过测量专利之间的相似性来构建专利网络。该网络描述了给定集合中专利之间存在的关系。这种方法有利于确定技术内涵,如专利的技术意义、申请人申请新专利的能力以及新专利的技术发展速度。该方法应用于硅基薄膜太阳能电池,结果令人鼓舞,达到了研究目标。然而,当用于确定具有不同技术基础的新专利的技术重要性时,该方法表现出一定的局限性。

4.1.3. Rule based techniques

Shih等人[23]提出了一种技术,称为专利趋势变化挖掘(PTCM),以捕捉专利趋势的变化,而不需要专业知识。所提出的方法能够通过元数据分析挖掘专利趋势的变化,并通过变化程度对变化进行排序。PTCM方法由以下组件组成:(a)专利提取器,(b)专利转换器,©专利指示器计算器,以及(d)变化检测模块。专利提取器模块使用关键词搜索策略来检索专利进行分析,并反过来获得受让人和国际专利分类代码(IPC)的信息。专利转换模块将原始专利文档从HTML格式转换为文本格式,存储在数据库中,并过滤掉不相关的信息,如专利号、国际专利局、申请日期、受让人姓名和受让人国家。专利指标计算器模块确定专利值。作者使用了四个专利指标,包括:(1)引用指数,(2)原创性,(3)通用性,(4)技术周期时间。变化检测模块是决定专利变化趋势的关键模块。作者使用关联规则挖掘来识别专利趋势。因此,频繁挖掘的模式可以被视为从专利文档中提取的趋势。所使用的规则匹配方法计算两个不同时间之间的两个规则的专利趋势的相似性度量和差异度量。此外,作者评估了变化的程度,并根据其重要性对变化的规则进行了排序。

Yu and Lo[25]提出了一种将专利分析技术与基于IF-THEN规则的模糊推理系统相结合的策略规划方法(FIS)。所提出的方法是上下文敏感的,并且从全球专利数据库而不是领域专家获得知识。FIS的重要输入属性,如(a)专利数量(PQ)、(b)显示专利优势(RPA)、©专利活动(PA)、(d)被引率(BCA)和(e)相对引用指数(RCI)是从计算机辅助专利分析系统获得的。模糊IF-THEN规则用于细化策略规则,以更好地适合于构建领域。使用Kohonen学习算法[45]和第一最近邻启发式算法[46]自动构建相关参数来推断适当的技术。为了说明拟议战略的适用性,对两家建筑公司进行了两种不同情况下的案例研究。第一种情况是针对建筑公司在国内市场的战略规划,而第二种情况是针对计划进入国外市场的公司的战略规划。所提出的方法适用于部分或不完全信息下的技术策略规划。另一方面,所提出的基于模糊推理的方法可能具有有限的概括能力,这可能需要专家知识来确定规则集以使系统正常工作。

4.1.4. Semantic analysis based techniques

Lee等人[14]提出了一种对专利文件中的权利要求进行语义分析的方法,以识别侵权行为(如果有的话)。专利中包含权利要求的部分由半结构化数据组成,从侵权检测的角度来看,这些数据实际上很难分析。因此,李等人[14]强调捕捉索赔部分各要素之间的依赖关系。为了表示结构化索赔元素和非结构化文本数据之间的依赖关系,提出了一种使用分层关键词向量的方法。分层关键词向量利用相似性指示符来识别索赔元素之间的关系。此外,还使用了一种树匹配算法,在逐个索赔的基础上比较元素。与以前侧重于技术关键词比较的方法相反,提出的方法有效地处理了语义。通过与传统的基于载体的方法进行比较,该方法在基因芯片技术领域得到了验证。尽管所提出的方法提供的结果被发现相当准确,作者仍然认为该方法难以应用于其他技术领域,因为它们可能具有不同的专利行为。

Wang and Cheung[26]开发了一个语义知识产权管理系统(SIPMS),以应对专利文档增长、文本冗长和技术术语内容丰富的问题。SIPMS具有语义分析能力,并使用文本挖掘技术来处理和分析专利文档。该系统提取专利文档的关键概念,并根据文档的句法结构发现这些概念之间的关系。SIPMS主要包括三个过程,如(a)预处理,(b)专利分析和©发明支持。预处理由索引代理、分段代理和索引代理组成。预处理过程选择相关专利,将专利进行分段,并对文档进行索引,以供进一步分析。提取代理检查相关的专利数据库,如果发现新的专利,它将根据预定义的模式提取专利。分割代理的任务是根据申请日期、受让人、国际化学品方案代码、标题、摘要、权利要求和发明描述,以半结构化的格式分割选定的专利。此外,半结构化格式由索引代理转换成概念。专利分析过程由一个分类代理和一个关系代理组成,以创建专利地图。专利分类代理使用朴素贝叶斯算法来形成类别。朴素贝叶斯算法是基于贝叶斯规则的简单分类方法。朴素贝叶斯算法假设一个类中存在的特定属性独立于其他属性的存在。关系代理的任务是在索引的专利文档之间创建关系。第三个重要过程是由查询代理和检索代理管理的发明支持。作者使用从美国科技大学专利数据库中收集的专利文献摘要进行了实验。实验结果表明,该系统在海量非结构化文本的检索、自动分类和正确知识共享方面具有很高的效率。然而,在所提出的方法中使用的朴素贝叶斯分类器缺乏对依赖性的完全建模,这可能导致不适当的专利分类。

Taduri等人[28]开发了本体来克服来自多个领域的信息的异构性和管理,例如专利文档、法院案例和文件包装。通过生物领域的一个用例,作者展示了所提出的本体如何帮助用户从多个领域收集信息。提出的本体定义了信息孤岛中表达的语义,并作为一个集成平台。此外,作者建议通过适当地关联类来填充信息域中的本体类,从而开发知识库。焦点一直集中在美国发布的专利上。这些专利在美国科技大学网站上以HTML的形式提供。相关信息通过脚本自动解析出来。此外,为了下载法院案例,使用脚本来提取信息字段,如原告、被告和法院。本体用OWL和Protégé 3.4编码?用作本体编辑器。为了查询知识库,使用了RDF查询语言(SPARQL)。为了评估数据提取,生成了50个专利的随机样本,并使用解析器对其进行解析。结果发现在从三个不同领域提取专利数据时非常准确。尽管如此,这种方法有一定的限制,因此可能表现不佳。例如,该方法使用自动提取专利数据的解析器。由于所有的专利数据都不是统一的格式,自动提取数据的任务变得更加具有挑战性。

Taduri等人[29]提出了一个基于知识的软件框架,以便于从美国专利系统中的多个、多样和不协调的信息源检索专利相关信息。为了提供各种信息源之间的互操作性,作者提出了专利系统本体。专利分析中出现的一个重要问题是术语的变化,如同义词和多义词,这阻碍了传统的基于信息检索的方法。为了解决这些问题,作者提出了一个基于知识的框架,该框架使用外部知识源,例如领域本体来提供所需的语义。本体由属于文档库的实际物理文档构成。此外,知识库还包含一个包含信息的文件包装器,如第一次修改、拒绝、干扰和原始应用程序。此外,所提出的专利系统本体将从一个领域获得的信息应用到另一个领域。信息检索框架建立在专利系统本体的语义之上,分多个阶段增强多源信息检索。因此,所提出的系统本体给出了标准化的表示和信息源的共享词汇表,以促进互操作性。

Shih and Liu[30]提出了一种新的基于专利网络的分类方法,用于分析专利和预测专利类别。专利网络由不同类型的节点组成,代表不同的特征。所提出的专利分类方法分两步实施:(a)专利网络构建和(b)专利网络分析,包括k-最近邻提取和专利类别识别。专利本体网络构建步骤识别实例/节点之间的关系。提出的本体网络包含四种类型的实例/节点和八种类型的关系/边。为了对专利文档进行分类,该算法确定查询专利和专利本体网络中的节点之间的所有联系和权重。专利网络分析的算法计算节点的权重和它们的关系,以导出元数据中的相关性。一旦已经确定了查询专利文档与专利本体中的其他节点的相关性,则提取与查询具有最高相关性的k节点,以识别最合适的专利类别。专利和类别节点用于确定候选类别的分数,因为它们最适合解释类别。因此,对于一个专利节点,专利节点与查询节点的相关性越大,该查询专利属于该节点类别的概率就越大。该方法的实验结果表明,与其他方法相比,如基于内容的方法、基于引用的方法和基于元数据的方法,基于专利网络的方法在准确性、精确度和召回率方面是非常有效的。

4.1.5. Neural networks based technique

Trappey等人[20]进行的研究集中在最大限度地减少搜索和确定专利质量所需的努力和时间,以管理创新特有的R&D操作。作者从来源中提取了专利指标,如国际专利分类(IPC)和专利引用数量。此外,随着指标的识别而开发的专利质量模型随后被提供作为通过反向传播神经网络进行训练的输入。通过反向传播算法进行培训的目的是识别特定于某项技术的专利,并做出准确的推荐。然后,对确定的专利进行排名,以帮助理解专利的技术价值。所提出的方法的分析结果被发现是85%准确的。然而,这种方法可能会遇到冷启动问题。当系统最初用于推荐的数据较少,最终可能导致不精确的专利推荐时,就会出现冷启动问题。

4.2. Visualization techniques

5.结论和未来研究方向

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值