预测技术收敛性的监督链路预测方法的有效指标及分类算法：比较研究

最新推荐文章于 2024-10-10 22:59:02 发布

tiger00O

最新推荐文章于 2024-10-10 22:59:02 发布

阅读量261

点赞数 2

文章标签：算法机器学习人工智能

本文链接：https://blog.csdn.net/tiger00O/article/details/120026692

版权

摘要：本文进行了比较分析，研究了不同的分类算法和结构相似性指标对监督链路预测方法预测不同预测范围内技术收敛性能的影响。为此，我们确定了不同时间段内感兴趣的技术之间的关系，并计算了每个时期内未连接技术之间的10个结构接近度指数。

我们开发了一套分类模型，以识别未连接技术之间的潜在收敛性，其中每个模型通过一个分类算法和接近度索引的组合进行不同的配置。我们比较了分类模型的性能，以研究分类算法和接近指数在不同预测范围内的有效组合。

对维基百科关于人工智能技术的文章的实证分析表明，随机森林在短期预测中优于其他森林，而支持向量机在中期预测中优于其他森林。我们还确定了当与每个预测范围最有效的算法结合时产生更高性能的结构接近指数。本文的研究结果有望为应用监督链路预测方法来预测技术收敛性时的分类算法和指标的选择提供指导。

介绍

现有的预测技术收敛性的链接预测方法可分为两类。

1.基于接近度的方法计算专利类别融合。缺点：这些方法不能提供关于预测收敛的时间的见解。并假设接近指数与技术之间发生新连接的可能性之间存在正线性关系

2.基于监督学习的方法通过开发机器学习模型来预测专利类之间的未来联系

本文通过比较分析，研究了监督链路预测方法在不同预测范围内预测技术收敛性的有效分类算法和结构接近性指标。

方法步骤

首先，我们构建了维基百科超链接网络，表示不同时间段内感兴趣的技术之间的关系。其次，计算了每个维基百科超链接网络的未连接节点对的10个衡量技术之间关系的三个不同方面（即技术相似性、技术独特性、技术普遍性）

计算每个维基百科超链接网络中未连接的文章对的结构接近索引。我们采用10个指标，根据其特征可分为三组

1.第一组根据网络中共同的相邻节点来测量两个节点之间的技术相似性（JC HP CN）

2.第二组测量两个节点共享具有少量相邻节点的罕见的相邻节点的程度(AA和RA指标)

3.第三组是成对测量两个节点的技术普遍性，节点的度大小乘积（PA）

本研究考虑了7种分类算法：支持向量机、决策树、随机森林、boost、多层感知器(MLP)、k近邻(k-nn)和朴素贝叶斯

第二，开发和评估7091个分类模型，其中包含7个分类算法的所有可能组合和1013个结构组合。使用训练数据集开发每个分类模型，并且使用测试数据集计算开发的模型的性能度量。具体来说，我们测量精度、召回率和F1分数，以评估开发模型的准确性和有效性

时间跨度：为了确定2016年未连接的文章对是否在2016年通过超链接连接。我们在2006年、2011年、2013年和2015年构建了4个维基百科超链接网络，以提出对链路预测方法的性能的影响，以预测不同长度的技术收敛，即1、3、5和10年。最后，我们将维基百科中关于人工智能的两个超链接的文章合并到分析中。

总结结论

本文报道了不同的分类算法和结构接近指数对监督链路预测方法在不同预测领域预测技术收敛性的性能的影响。

本文的贡献如下。首先，据我们所知，这是早期研究不同机器学习算法和结构接近指数在链接预测应用中预测技术收敛的预测效果的研究之一。对7种机器学习算法和10个结构接近索引的所有可能组合的评估和比较表明，某些算法和索引的使用比其他算法产生更好的链路预测模型。

不足：首先，我们只比较了7种分类算法的性能，即SVM、决策树、随机森林、梯度增强、MLP、k-nn和朴素贝叶斯。此外，在开发分类模型时，比较了有限的超参数候选参数。对其他分类算法的广泛研究和大量的超参数候选算法，以识别最佳性能的算法，将有助于开发一种预测技术收敛的有效方法。其次，本研究主要根据两个节点相邻节点的数量和节点的程度，考虑10个结构接近度指标。由于其他结构接近指数，如基于非连接节点与社会理论之间路径的指数，将有助于预测技术收敛，因此，在未来的研究中可以对不同类型的接近指数进行比较。我们研究了在10年预测中，两个额外的接近指数(即局部路径和根路径PageRank指数)在预测技术收敛时的有效性。然而，这些指数在不同的预测范围内是需要有用的。