基于机器学习的深度语义分析的预测新技术收敛性的方法

文章:

Machine-learning-based deep semantic analysis approach for forecasting
new technology convergence

Tae San Kim, So Young Sohn⁎
Department of Information and Industrial Engineering, Yonsei University, 134 Shinchon-dong, Seoul 120-749, Republic of Korea

摘要:

        技术融合对于创造新价值和引入新产品和服务极为重要。波动和竞争的环境引发了彻底的技术融合。虽然提出了许多框架来预测收敛性,但预测新技术之间的融合并不容易。为了克服这个问题,我们提出了一个基于机器学习的框架,该框架使用语义分析和传统的方法如链接预测和文献计量学分析来识别收敛模式。我们利用专利的文本信息进行语义分析,这是时不变的,有用于识别语义收敛模式。特别是,文档到向量的方法被用来识别技术的语义相关性。我们将我们的框架应用于的收敛技术领域 。

 

背景:     

      由于对链路信息的分析是基于现有的链路,因此使用链路信息不能确保识别新技术收敛的各种来 源。此外,由于新技术的使用寿命较短,由于缺乏积累的文献计量学信息,因此难以识别收敛模式。由于这些缺点,对技术收敛性的分析需要一种互补的方法。
       
        为了克服这个问题,我们利用来自专利的文本信息进行语义分析。在技术收敛方面,两个或两个多个领域之间的语义相似性可以被看作是新融合的证据。通过语义相关性测量融合的概率,高语义相似性是收敛的先驱(Preschitschek等人,2013),专利的文本语料库可用来计算技术领域之间的语义相似性。使用文本信息来识别收敛模式有几个优点。专利中的文本元素立即从授予的专利中获得,因此随着时间的推移不会被低估或高估(Ju和Sohn,2015)。此外,基于大量的文本,还可以捕获各种技术洞察力(Gerken和Moehrle,2012)。因此,文本信息测量的语义相似性可以用来检测新技术收敛 的证据(preschitchek等,2013;Pass和Moehrle,2015)。 在本研究中,我们提出了一个基于机器学习的框架,它不仅利用链接和专利信息,而且还利用文本信息进行语义分析。我们在与自动驾驶汽车相关的两个技术领域上测试了我们的方法。
 数据和计算方法:
        在本研究中,收敛技术的诞生是专利首次出现两个IPC子类的组合。
        我们提出的方法是基于美国专利商标局(USPTO)从智慧域数据库中提取的专利数据。我们考虑了两个技术领域:(1)信号传输和电信(2)汽车。选择IPC子类的数字数可以专注于特定的技术范围。该 方法基于4位IPC代码,以识别两个不同领域之间广泛的技术融合范围。
        
        在(1)信号传输和电信领域,以及汽车领域,分别有21位和314位的IPC子类(附录B)。2009-2017年, 我们从这两个领域共提取了381,062项专利。它们之间的IPC子类对 组合数为651个,一个新发现的组合是潜在技术收敛的候选组合。由于收敛模式是从IPC对的角度识别出来的,所以使用651对信息作为输入,并使用下一时期内发现的新的收敛模式作为目标。基于过去三年的信息,我们调查了未来三年可能发生的趋同的可能性。因此,我们将整个时期分为三年,如表1所示。

        我们在一个周期内训练我们的模型,并预测下一个周期周期内出现新的收敛性。在训练中,当前时期的目标是下一时期的收敛对。例如,周期1在周期2中有215个目标收敛,而周期2有183 个目标融合。同时,由于周期3之后没有信息,周期3没有目标收敛。因此,使用周期1(即训练数据)训练的模型可以通过周期2的收敛(即验证数据)的预测性能进行评估。该模型通过预测实际收敛性的性能进行了评估,但寻找新检测到的融合也非常重要。因此,验证过程包括对下一期新收敛的IPC对的预测性能进行评估。未来可能的收敛可以通过应用来自周期3的信息(测试数据)到使用第2期知识训练(再训练数据的模型)。

整个框架:
        在本研究中,我们的目的是利用语义因子以及专利的链接和文献计量学信息来识别收敛模式。该框架由三个步骤组成,如图所示。 1. 首先,两种技术之间的所有可能的IPC对收集信息,并提取它们的 链接、文献计量学和文本信息。在此基础上,从各个角度获得了收敛指标。将这些链接预测、文献计量学和语义相似性指标被连接起来,形成一个表示IPC对收敛模式的收敛向量。其次,将所有的收敛向量应用于机器学习模型,以识别融合的模式。特别是,为了证明文本相似性的使用通常可以提高预测性能,采用 支持向量机(SVM)、神经网络(NN)、决策树和随机树(RF)等各种机器学习技术作为验证模型。最后,根据所确定的融合模式,预测了新的收敛性。选择性能最好的机器学习模型作为未来收敛的预测工具。通过将新的收敛向量应用于该训练模型中,可以预测未来的收敛性。
模型的input:
1.network-based link prediction  indicators 

2.Bibliometric indicators

3.Semantic analysis indicators 

        为了度量两个ipc之间的语义相似性,我们使用文档到向量(Doc2Vec)方法获取每个技术领域的语义相关性。
        我们将标题的窗口大小设置为3,摘要的窗口大小设置为10,声明和整个信息的窗口大小设置为30,而标题的矢量大小设置为100,摘要的矢量大小设置为200,声明和整个信息的矢量大小设置为400。基于这些信息,我们使用Doc2Vec方法从文本信息中提取密集向量,并通过提取向量之间的 余弦相似度计算相似度评分

 result:

不同的算法在不同的向量组合之间的表现

 模型的参数

4.3. 预测结果作为未来的收敛性
        本研究选择了具有链接、文献计量学和语义指标的RF(随机森林)作为我们的预测模型,以识别未来可能收敛的技术。从2015-2017年收集的数据集中,我们预测了这24对新的IPC对将在2018-2020年内收敛(附录 C)。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值