基于主题模型的专利文本主题挖掘与应用研究- 专利文本主题挖掘方法

  • 基于分类
    需要认为提前设定好一定的分类标准,并需要规定好各个主题类别信息,它是一种有监督或者半监督的方法,对于一个新文本的归类过程也是对其文本主题信息解读的过程。
  • 基于聚类
    无监督
    通过对聚类各个类簇进行解读,从而发现文本的主题信息。

三种流程

  • 基于分类号
    从分类角度识别专利技术主题信息
    专利文本通常都有IPC分类号,该分类号对解读文本技术主题信息具有重要作用。一个专利通常都有一个以上IPC分类号,第一个为主分类号,体现专利文本的主要技术主题西悉尼。专利文本的IPC分类号是传统专利计量分析的重要指标,通过考察某个领域的IPC分布情况,可以在整体上把握该领域的技术主题的分布、研究热点或发展趋势。
    使用IPC分类号识别专利文本涉及的技术主题需要结合《国际专利分类表》,即IPC对照表,通过该对照表便可对相应的IPC分类号进行解读,进而识别专利文本涉及的主要技术主题信息。
    IPC分类号的构成形式一般为:

    • 部(用1个字母表征)
    • 大类 (用2个数字表征)
    • 小类(用1个字母表征)
    • 大组(用1-3个数字表征)/
    • 小组(用2-4个数字表征)
      在传统的专利分析计量中,常用的是提取每个具体IPC分类号的前3至4位代码作为统计分析的基准。
  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值