进入本世纪以来,人类社会的科技发展进入了前所未有的告诉时期。快速更新换代的技术带动了相应专利文献的产生与积累,在这种大背景下,专利文本挖掘已经不再仅仅是一个相对孤立的辅助模块,二十一跃成为技术发展决策活动中必不可少的一环,在技术研发的起始与收尾过程中扮演着发掘重要知识、支持战略制定以及总结发展情况的重要角色。因此,如何准确高效进行海量专利文献的文本挖掘,同时识别并且i获取其中所隐藏的关键技术内容及潜在的重大机遇,目前已经成为研究与应用中被广泛关注的重点。
本文面向专利文本挖掘,在回顾总结国内外现有技术与方法的基础上,构建并且实现了基于主题模型的专利文本发掘技术,以无监督学习的方式完成了对大两还礼文本技术主题的自动识别与抓取,同时通过运用分段线性表达、最小而成法等数学方法,对已经获取的专利主题进行了定量的重要程度评定、趋势转折贡献度估计以及未来发展趋势分析。为了证明方法的可行性和有效性,本文采用了来自北国专利与商标局的实用新型专利进行了实证研究和案例分析。具体来说,本文的主要创新点如下:
1 基于主题模型的专利文本挖掘系统框架
本文将主题模型这一国际前沿的热点统计模型引入到专利文本挖掘及科技管理领域,提出了基于主题模型的专利文本挖掘系统框架,并开发实现了从数据输入、文本清理、主题识别、主题选取到主题贡献程度估计、主题发展趋势预测的完整分析流程。
2 基于专利权力要求的科技主题识别及抓取方法
本文对权力要求的特有属性,建立并且实现了基于权力要求的科技主题识别及抓取方法:在给定技术范围后,通过网页信息抓取的形式获取目标专利的权力要求文本,同时制定了适用于权力要求的文本清洗模块,通过运用LDA实现了对大两文本中签字啊的科技主题及主题分布的非监督自动识别与获取。为了验证方法可行性和有效性,本文以20000-2004年间受让人国家为澳大利亚的13910条美国实用新型专利对方法进行了实证研究和案例分析。
3 定量的专利授权活动趋势转折点抓取方法
本文针对传统技术预测及评估过程中,模型拟合无法判断趋势转折和具体专利活动趋势变动等问题,采用分段线性表示的数学方法,定量地获取了专利活动中的趋势转折点,并使用转折点将专利活动分割成在时序上的趋势段,从而凸显并且抓取潜在的专利发表趋势变动,同样为了验证方法有效性,本文虽有以上述美国实用新型专利数据及澳大利亚ICT产业相关数据对方法进行了实证研究和案例分析。
4 科技主题对发表趋势转折贡献度的分析评估方法
在已经获取的隐含在大两权利要求的科技主题中,不同的主题对于该领域内专利授权量的整体趋势变化的贡献度不尽相同。本文提出了一种定量评估科技主题对整体技术范围发展趋势转折贡献度的方法,由主题分布矩阵计算初每个科技主题的贡献系数,从而对各个主体在各个趋势段中的重要性变化加以评估分析,为了验证方法可行性和有效性,本文以美国使用系西宁专利对方法进行了实证研究和案例分析
5 基于年度主题权重矩阵的科技主题发展趋势分析
本文综合由LDA估计出的科技主题信息及主题分布,建立年度主题权重矩阵,并且用最小二乘法对各个重要科技主题自身的时序权重变化进行了定量的计算,最终实现了对每个科技主题发展趋势的预测及估计。为了验证方法可行性和有效性,本文虽有以美国专利对方法进行了实证研究和案例分析。
此外在主题表达方面,针对创痛专利文本挖掘中,关键词无法清洗获取科技主题语义并难以区分同义词这一不足,本文采用词汇分布的方式表达科技主题,以分布中概率最高的一组词汇来反映对科技主题的具体内容避免了以词表义统一产生歧义的问题,切实赋予了各个技术主题以语义含义