- 基于分类
需要认为提前设定好一定的分类标准,并需要规定好各个主题类别信息,它是一种有监督或者半监督的方法,对于一个新文本的归类过程也是对其文本主题信息解读的过程。 - 基于聚类
无监督
通过对聚类各个类簇进行解读,从而发现文本的主题信息。
三种流程
-
基于分类号
从分类角度识别专利技术主题信息
专利文本通常都有IPC分类号,该分类号对解读文本技术主题信息具有重要作用。一个专利通常都有一个以上IPC分类号,第一个为主分类号,体现专利文本的主要技术主题西悉尼。专利文本的IPC分类号是传统专利计量分析的重要指标,通过考察某个领域的IPC分布情况,可以在整体上把握该领域的技术主题的分布、研究热点或发展趋势。
使用IPC分类号识别专利文本涉及的技术主题需要结合《国际专利分类表》,即IPC对照表,通过该对照表便可对相应的IPC分类号进行解读,进而识别专利文本涉及的主要技术主题信息。
IPC分类号的构成形式一般为:- 部(用1个字母表征)
- 大类 (用2个数字表征)
- 小类(用1个字母表征)
- 大组(用1-3个数字表征)/
- 小组(用2-4个数字表征)
在传统的专利分析计量中,常用的是提取每个具体IPC分类号的前3至4位代码作为统计分析的基准。