创新杯论文——面向中文专利信息的关系数据库检索优化策略研究及应用

最新推荐文章于 2024-09-22 11:17:00 发布

小老虎Marvin

最新推荐文章于 2024-09-22 11:17:00 发布

阅读量7.4k

点赞数

本文链接：https://blog.csdn.net/mawenhu/article/details/3372854

版权

本文探讨了中文专利信息检索优化的重要性，分析了中文专利信息的特点和检索优化的必要性。研究基于关系数据库的检索优化理论，结合Lucene技术，提出了针对WanFangData专利文献多维检索与分析软件的优化策略，包括数据清洗、建立索引、SQL查询优化和用户输入信息优化。通过这些策略，旨在提高检索效率和用户满意度。

摘要由CSDN通过智能技术生成

面向中文专利信息的关系数据库检索优化策略研究及应用

目录

2.3.3 中文专利信息检索的意义... 6

2.4 中文专利信息检索优化... 7

2.4.1中文专利信息检索优化的必要性... 8

2.4.2中文专利信息检索优化理论... 8

3 WanFangData中文专利信息检索简介... 10

3.1 WanFangData专利文献多维检索与分析软件... 10

3.1.1 专利信息统计分析模块... 11

3.1.2 专利信息多维检索模块... 11

3.2 WanFangData专利信息检索需求... 11

3.2.1 专利信息多维检索需求... 12

3.2.2 专利信息统计分析需求... 13

3.3 Lucene中文索引技术简介... 14

3.3.1 Lucene结构简介... 15

3.3.2 中文自动分词技术... 16

3.3.3 基于Lucene的中文索引技术... 18

3.4 SQL Server 2005查询优化简介... 20

3.4.1 查询处理流程... 20

3.4.2 SQL查询语句优化... 21

3.4.3 查询优化器... 24

4 WanFangData中文专利信息检索优化策略... 26

4.1 WanFangData专利检索优化模型... 26

4.2 数据清洗和组织存储优化... 27

4.3.1 SQL Server索引技术... 33

4.3.2 Lucene索引技术... 35

4.4 SQL查询语句的优化... 40

4.4.1 存储过程使用... 40

4.4.2 SQL语句技巧的使用... 41

4.5 用户输入信息的优化... 42

4.5.1 “主申请人地址”输入优化... 43

4.5.2 “IPC分类号”输入优化... 43

4.5.3 其他中文信息输入优化... 44

摘要：在知识经济时代，专利信息已成为各国发展经济技术不可缺少的重要信息资源。然而，中文数据库查全率和查准率一直是需要解决的前沿，尤其是海量数据的中文专利数据库，如何高效而快速的满足用户检索和分析需求，对中文专利数据库的检索进行优化已势在必行。本文将基于关系数据库的检索优化理论和中文信息的处理技术，基于Lucene技术探索一种适用于中文专利信息的检索方式。同时，结合南理工万方数据实验室“WanFangData专利文献多维检索与分析软件”的检索优化工作，提出相应的方案，并予以实施。本文根据资源特点和业务流程的需求将传统的关系数据库技术和Lucene全文索引技术相结合，并首次将用户输入信息的优化纳入检索优化策略之中。

关键字：中文专利信息关系数据库检索优化 Lucene

1 引言

中文信息检索是现代信息检索的一个非常重要的方面，它是以中文信息为主要处理对象，根据建立的索引进行查找，并将查找的结果反馈给用户的检索方式。中文信息检索技术在原理上同西文信息检索是一致的，但汉字本身的特点使中文系统的实现比西文系统更为复杂，且中国的信息检索技术起步较晚，和国外的检索系统还有很大的差距，如检索效率、结果排序等存在很大的问题，因此需要针对数据库的检索策略进行优化。

专利作为中文信息的重要组成部分，是科学技术成果的重要表现形式。随着世界经济和技术竞争的加剧，拥有自主知识产权，提升自主创新能力，日渐成为各个国家和企业制定技术发展战略的重点和逐鹿竞争市场的利器。因此，专利信息的研究与利用被世界各国置于战略发展的基点上。然而，如何在海量的专利信息中快速检索到用户所需信息已经逐渐成为人们关注的热点，例如百度、维普、CNKI等著名网站都已推出了专利信息搜索引擎。

本文将基于关系数据库检索优化的理论基础上，重点结合 “WanFangData专利文献多维检索与分析系统”中的专利数据库来研究，提出相应的检索优化策略并进行实证分析。

2 中文专利信息检索优化概述

在我国，专利信息已经开始逐渐被人们利用和研究。但是，人们很难从大量的专利信息中快速找到满足自己需要的信息。为了提高检索效率，人们迫切需要一种策略对中文专利信息检索进行优化。

2.1 中文信息检索的概念

中文信息检索就是对中文文献进行储存、检索和各种管理的方法和技术。中文文献检索技术出现在1974年，20世纪80年代得到了快速增长，90年代主要研究支持复合文档的文档管理系统。中文信息检索在90年代之前都被称为情报检索，其主要研究内容有：包括布尔检索模型、向量空间模型和概率检索模型在内的信息检索数学模型；如何进行自动录入和其它操作的文献处理；进行词法分析的提问和词法处理；实现技术；对查全率和查准率研究的检索效用；标准化；扩展传统信息检索的范围等。中文信息检索主要是书目的检索，用于政府部门、信息中心等部门^[1]。

2.2 中文信息检索的现状

汉语在世界上属于汉藏语系，较之英语、法语是一种孤立语，汉语的独一无二的特色是完全使用由象形文字演化而来的方块汉字。中国的汉字是示意文字，总数有几万个，在由国家标准总局颁布的《信息交换用汉字编码字符集——基本集》(即GB2312280) 中共收录了一级和二级常用汉字共6 763个，而在Unicode 编码中更是收录多达20 902个汉字^[2]。因此，信息检索的难点表现在以下几个方面：

1) 词语没有形态标记。汉语是以字为基本单位，词之间没有明显的标记，词本身也没有明显的形态标志。所以中文信息检索时必须进行分词，分词本身的也有一定的错误率，这无疑降低了后续处理的实际效果。

2) 结构松散，中文信息检索时需要先过滤掉大量的标点符号以及虚词、介词等没有实际意义的词，占用了大量的系统资源。

3) 语义灵活，一方面语法的灵活主要来源于语义的灵活；另一方面同一结构可以表达不同的意思，同一意思可以用不同结构表达。中文信息检索时必须从词语的语义层次理解，这样就需要编制汉语词典，然而要构造完备的词典是不可能的。

4) 长期以来，对汉语的研究方法基本上是列举性的，而非穷尽的；材料和对象基本上是书面的，而非口语的。这主要是因为基于语义理解的研究方向，受领域的约束较大，研究进展速度缓慢^[3]。

5) 中文信息检索研究力量分散而且存在着低层次重复、缺乏统一规范和标准的问题。

6) 另外比较重要的一点是，现有的自然语言处理理论和技术大多都是以英语为研究对象语言发展起来的。而汉语无论在语音、文字表示，还是在词汇、语法、语义及其语用等各个层面上，都与之存在着很大的差异。这使得无法直接套用西方已成熟的信息检索理论和技术。

总的来说，基于以上中文信息的特点，在进行中文信息检索之前需要完成两方面的任务：

(1) 信息的规范化。

必须对中文信息按照一定的方式进行组织管理，使之成为可以高效检索的信息库。信息的规范化包括分词和索引(以及资料的搜集和整理) 、更新(维护) 两部分；信息的检索包括搜索、结果输出两部分。

(2) 信息的检索和表达。

以索引好的中文信息库作为信息基础，利用信息库已被索引的特点，实施快速检索，同时根据用户的需求将检索结果进行输出。

2.3 中文专利信息检索概述

在知识经济时代，新技术、新产品的开发活动总是与专利申请活动密切相关。作为知识成果利益享有者的权利，专利几乎囊括了一切科学技术应用领域的创新成果。在当今国际市场竞争极为激烈的情况下，专利信息更是各国发展经济技术不可缺少的重要信息资源。

2.3.1 中文专利信息的内涵

中文专利信息是指以专利文献作为主要内容或以专利文献为依据，经过分解、加工、标引、统计、分析整合和转化等信息化手段处理而形成的与专利有关的各种信息^[4]。专利信息主要分为专利文献与专利加工信息两大类。

(1)专利文献是记载发明创造内容的科学技术文献，是各国专利局及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。一般包括专利公报、专利申请文件、专利说明书、专利索引、专利分类表、专利文摘等有关专利和专利权人的已出版或未出版的资料。专利文献技术信息含量较高，一般包括两方面内容：专利技术信息特征和专利法律信息特征，其仅报导技术成果，而不报导理论成果。

(2)专利加工信息主要包括各种专利数据库、专利专题信息资料、专利分析统计图表以及专利被引数据和专利引文数据等等。其中，专利数据库是最主要的专利文献加工信息。

2.3.2 中文专利信息的特点

专利信息是泛指与发明事务有关的各种信息，与其他科技文献相比，专利信息具有以下特点：数量巨大，内容包罗万象；内容新颖可靠；信息快，时间性强；分类科学、系统；格式规范，语言严谨；便于检索。因此专利信息所公开的内容成为比诸如学术报告、学术论文等任何信息的内容更加重要和珍贵的信息资源^[5]。

一般专利信息是以专利数据库的形势展现给人们的。例如，一条中文专利信息记录包含以下几个字段：专利名称、申请号、申请日期、申请人、发明人、申请人地址以及审定公告号等常见的专利特征信息和说明书页数、主权项权利要求等内容信息。目前，现有的专利检索系统大多是针对特征信息进行开发的。

对于一条完整的专利特征信息来说，又包含着中文信息（如专利名称、申请人地址）和非中文信息（如申请日期、主分类号）。中文信息处理的难点在专利信息的文字段的处理上凸现出来了。

2.3.3 中文专利信息检索的意义

随着企业对专利知识产权保护意识的增强，专利信息越来越受重视。企业对专利信息的需求使专利信息检索也因此备受关注。目前国内对专利信息的检索、分析和应用大多是基于专利外部特征进行的。专利信息检索的意义主要体现为以下几点：

1) 专利信息检索是企业技术创新的前提。通过对国内外现有专利的检索，及时掌握企业所属领域技术发展趋势，借鉴别人的发明专利，积极开发属于本企业的专利，响应国家自主创新的号召。

2) 专利信息检索是企业内部产品开发、科学研究之前的决策依据。企业在开发一个新产品之前应通过专利文献检索，检查自己即将开发的新产品是否侵犯了他人的专利权，以免发生专利纠纷，避免不必要的麻烦和损失。

3) 专利检索是申请专利之前的必经步骤，是撰写权利要求书的基础。技术开发之后，企业将研究、开发成果抢先申请专利，取得专利保护，这是企业参与技术竞争的一项重要工作。企业只有充分了解了是否有类似专利，才能撰写好相应的专利权利要求书。

4) 通过专利信息检索可以了解竞争对手在相关产品专利中申请方面所涵盖的权利要求内容。通过专利信息检索可以了解同行业的产品发展水平，对本技术领域的相关专利资料进行统计和分析，了解同类及相关技术的分布、专利申请频率及同族专利情况，然后预测该技术的发展趋势，从而修正或明确企业的研发方向，确保产品技术处于领先，填补市场空白，做到知己知彼，百战不殆。

5) 通过专利检索可以掌握某项专利技术所处的法律保护状态，是技术转让、专利许可的重要依据。企业为了快速发展，取得市场竞争的优势地位，可以通过引进技术来达到目的，企业在购买专利技术和得到专利许可之前，一定要进行专利检索，掌握对方专利的法律保护状态，防止购买过期或即将过期的专利而造成不必要的经济损失。

6) 通过专利信息的检索可以掌握失效专利公知的权利要求内容，有效利用失效专利，拓宽企业发展之路，减少企业发展资本。专利的保护期是有限的，一旦过期即为失效专利，企业就可以免费的使用这些专利里面蕴含的成熟技术，减少开发成本。

总之，专利是企业的生命，企业不但要重视专利的申请、专利信息的检索，还要重视对专利信息的应用，企业的发展离不开专利信息检索及专利信息应用。

2.4 中文专利信息检索优化

随着用户对专利信息需求的不断增加，他们对专利信息检索的要求也在不断地提高，突出表现为对检索速度和检索精度等均有了较高的要求。

中文专利信息检索优化就是在这种情况下提出的，最终目标是能够快速、高效地检索出符合用户需求的专利信息。

2.4.1 中文专利信息检索优化的必要性

随着专利信息的累积、需求的拓展和系统的更新换代，对系统数据处理效率的要求越来越高。尽管当前关系数据库管理系统技术成熟，能够自动对海量数据查询进行自动优化处理。但是，如果数据库设计不合理，或者没有按照需求特性运用相应的优化策略，不仅会增加客户端和服务器端的编程和维护的难度，而且还会影响系统实际运行性能，严重时将导致系统瘫痪。

专利信息检索的目的在于提供满足用户要求的专利信息，但是却由于检索过程中一些不确定性因素（中文专利信息的特点）而使得该目标难以实现。影响一个中文专利信息检索系统性能的因素包括：基础数据的存储和组织方式、查询条件的表示方法、查询相关性的匹配策略以及查询结果的排序方法等。这些因素的根源均来自于中文专利信息的模糊性和复杂性。

此外，用户通常希望用最小的努力获得自己最满意的专利信息。因此，查询通常具有简短、概要以及不精确三个特点。如何尽量减小这些因素给信息检索质量带来的影响从而优化关系数据库检索策略就成为了中文专利信息领域的研究重点与发展动力。

2.4.2中文专利信息检索优化理论

中文专利信息检索优化是一种代价的均衡，某一方面性能的提高往往是以牺牲另一方面的性能为代价的，并且随着软硬件技术的发展，优化的代价也在不断变化中。目前，中文专利信息检索优化策略主要是对数据库进行优化以及为中文信息建立有效的索引。

一方面，数据库是专利信息存储和处理的核心，数据库设计的好坏直接影响着信息检索系统总体的性能。因此，一个好的中文专利数据库必须建立在良好的数据库设计基础上，必须针对系统的应用特点、系统软硬件环境、专利信息特性和数据库管理系统本身特点进行综合考虑，采取合理的优化策略，才能充分发挥数据库的作用，提高系统整体性能。

另一方面，我们必须针对中文信息处理的难点，通过采取一定的策略为中文字段建立合理有效的索引，从而可以根据系统的需求、环境，将每个检索操作占用的磁盘I/O时间、CPU处理时间、内存量等系统资源减少到最合理，使每个查询、统计分析等处理的响应时问尽量短，以充分利用系统软硬件资源，最大限度地提高整个系统的数据吞吐量和处理能力，避免出现数据传输、存储和处理瓶颈。降低系统的成本，提高数据库系统的性价比^[6]。

基于以上分析我们可以总结出专利数据库优化的主要策略分为以下四种方式：数据清洗和组织存储优化、建立索引、SQL查询语句优化以及用户输入信息的优化。

1) 数据清洗和组织存储优化

影响专利检索系统效率最为关键的是数据库中的基础数据，数据清洗的目的就是减少数据库中的难以辨识的信息和非法信息。组织优化是将数据以便于处理的形式进行组织。例如，将部分中文信息转换为数字或字符信息，从而为检索优化的实行提供基础。

专利数据库存储优化的重点是对数据文件和数据表进行合理的设计。当前，系统的大部分数据都是集中在少数的几个数据表上，造成数据表的记录条数达到千万，甚至是数亿。如何对数据库进行合理设计，避免全表扫描、降低表之间的连接查询开销是数据库优化的关键。

2) 建立索引

建立合理的索引也是提高专利检索效率的重要举措。就中文专利信息而言，合理的索引不仅可以避免扫描大量数据，同时可以帮助用户快速找到所需信息。

3) SQL查询语句优化

查询优化也是数据库优化的重要方面。关系数据库系统为用户访问和修改数据提供了强有力的关系查询语言。SQL作为一种结构化的数据库查询语言，具有易于使用的、非过程化的、描述性等特点。结构良好的查询语句将会减少系统自动优化的开销。因此，对查询语句进行优化是必不可少的。

4) 用户输入信息的优化

对用户输入信息的优化主要是规范用户的输入信息，尽量减少用户输入非法数据的可能性。这样，不仅可以避免大量无效的查询，同时也可以保证系统的稳定性。

总而言之，中文专利信息检索优化策略应遵循以下规则：

i. 设立合理的性能目标。在优化之前，需要确定合理的目标。设立目标最重要的是可量化和可达到。

ii. 确定影响系统性能的瓶颈。当系统运行了一段时间后，会发生性能低下，这时需要把握问题关键，分析找出当前性能瓶颈的所在。

iii. 找出影响数据库性能的因素。由于改善数据库性能所采用的方法都可能带来严重的负面影响，因此在达到预定目标时，应停止所有的工作。在对数据库进行性能调整时，如果某个成分不是瓶颈源，就不要对它进行更改。

下文将在检索优化理论的指导下，对已开发的专利检索软件进行检索优化，从而提高检索效率，提高软件的用户满意度。

3 WanFangData中文专利信息检索简介

WanFangData中文专利信息检索是“WanFangData专利文献多维检索与分析软件”的主要功能模块之一，本文对中文专利信息检索优化策略的研究就是在此模块上进行的。

3.1 WanFangData专利文献多维检索与分析软件

WanFangData专利文献多维检索与分析软件是南理工万方数据实验室一期项目的成果，该软件以专利信息分析、竞争情报和知识挖掘等理论为基础，利用数理统计方法和计算机软件技术，对专利信息进行多维统计加工、智能化定量分析和内容的深度挖掘，并将分析结果以可视化界面提供给用户。在此基础上，用户能够追踪最新的技术发展动态，分析技术发展的演变趋势，甚至预测未来技术发展的方向。该系统以顾客需求为起点，以服务流程为驱动，既考虑软件产品的独立性、完整性，又兼顾可拓展性。

该软件主要分为专利信息统计分析模块、专利信息多维检索模块以及系统配置模块，下面介绍最主要的两个功能模块。

3.1.1 专利信息统计分析模块

专利信息统计分析模块是WanFangData的核心功能模块，其分析角度是WanFangData区别于现有专利分析软件的关键所在。它从不同层级用户（国家或地区、行业、企业）的专利分析需求出发，设计了与之相匹配的专利分析指标体系，为各层级用户进行专利分析提供强有力的数据支持。

3.1.2 专利信息多维检索模块

WanFangData专利信息检索模块提供强大的统一资源搜索引擎，支持快速检索、二次检索、高级组合检索等常用检索方式，方便用户从海量专利信息资源中快速获得所需专利信息。用户还可以通过WanFangData拥有的数据导出功能，将检索结果导出到本机上，形成Excel文档，从而方便编辑和保存检索结果。

3.2 WanFangData专利信息检索需求

专利信息检索与专利信息统计分析是WanFangData专利文献多维检索与分析软件的两大功能模块，它们都是在专利数据库信息检索的基础上，分别将用户所需的数据以表格和可视化图形的形势表现出来。

WanFangData数据库DBPat2007中的数据是从1985年至2007年的在中国申请的专利，累计已经超过了200万条记录。随着时间的推移，记录数据量必将继续快速增长。这些原始数据最初是存放在Access数据库中的，因此需要我们通过ETL（EXTRACT-TRANSFORM-LOAD）将数据导入到SQL Server 2005中，由于不是本文的重点，这里不予详述。

由于数据在录入之前的格式本身就不规范，若将导入的数据直接提供给应用程序进行检索和分析，结果显然不是用户所需要的，而且这样这势必会影响检索和分析的精确度，同时检索的效率将会非常低下。

我们在对中文信息检索优化的过程中除了使用上述优化理论中提到的数据清洗和存储优化、建立索引、SQL Server查询语句的优化以及用户输入信息的优化等一般方法外，还必须针对WanFangData专利文献多维检索与分析软件自身的特点进一步细化优化的策略，因此我们必须分析软件对数据检索的需求。

3.2.1 专利信息多维检索需求

专利信息检索是直接针对专利数据的外在特征（如专利名称、申请人、发明人、主分类号等）进行的，用户是通过输入检索条件得到满足自己需要的相关专利信息。检索界面如图1所示，图中我们不难看出，一般非专业用户很难明确知道自己所需专利信息的IPC分类号及其格式，因此优化的过程中应尽量减少用户输入不规范或违法信息的可能性，从而保证检索的效率。

图1 检索界面

根据上文对专利信息特点的描述，可以看出，大量的专利信息在数据库中以中文字符的形式存在，而对中文信息的处理一直是限制检索效率的瓶颈。因此在系统优化的过程中，必须将中文字符尽可能地转换为易于处理的英文字符或阿拉伯数字，例如专利类型、行政区域代码。

对于不能转换的中文信息，利用SQL Server数据库管理系统自带的工具（分词、建立索引）还远远不能解决中文信息处理的难点问题，我们必须借助其它技术来更好地对中文专利信息进行处理。Lucene就是在传统数据管理系统不能有效解决中文索引的情况下产生的，下一节将作具体介绍。

此外，专利信息检索的结果是以序列化表格的形式展现给用户（图2所示），因此如何选择检索结果的显示方式和排序方式来达到较高的效率也是系统优化必须面对的问题。

图2 检索结果

3.2.2 专利信息统计分析需求

专利信息统计分析模块分为“企业”、“国家”和“地区”三个层次设计了相应的指标，根据用户的选择从数据库中查询和计算相关信息得到用户所需的数据，然后通过可视化图形的形式直观地反映给用户。

在统计分析中，用户选定相应的指标（如图3所示）后，系统根据输入的信息对数据库中相关的数据进行分析。分析过程中，用户感兴趣的专利信息不再仅仅局限于专利数据库提供的原有属性上，而更多则是根据用户的习惯与偏好进行分析，如专利的主申请人的国别、地区等。而这些信息最初都是包含在主申请人地址中，我们应当对这些数据进行预处理，从主申请人地址中提取国别和地区信息，这样在分析的过程中就避免了大量的操作，提高了分析的效率。