Re76 读论文:新兴技术的多指标量化识别研究——基于向量表征方法的探索

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文全名:新兴技术的多指标量化识别研究——基于向量表征方法的探索

本文是2022年《图书情报工作》期刊的文章。

在这里插入图片描述

本文的研究目标是识别“新兴技术”,研究方法是从文本数据中找出具有“融合性、新颖性与潜在的科学影响力”这些特质的主题。
技术思路比较简单,文本数据来自论文,用termolator算法抽取术语,构建文档的术语共现网络(边权是共现频次),用node2vec进行节点表征,通过minibatch K-means++聚类得到主题向量,主题的交叉融合性是主题向量和相关向量的余弦相似度,新颖性是簇内术语最早出现时间的均值,潜在科学影响力是对节点对进行重构后得到的新网络的PageRank值。然后结合这三个指标的得分筛选出“新兴主题”。

1. 构建术语表征网络

抽取术语的算法:
在这里插入图片描述

用node2vec进行节点表征:
在这里插入图片描述

2. 对术语进行打分

在这里插入图片描述

在这里插入图片描述

交叉融合性:
在这里插入图片描述

潜在科学影响力:
第一步:对每一个节点对,通过以下方法之一(具体怎么选看实验部分)得到一个权重:
在这里插入图片描述
从而得到一个“未来网络”。这个模型实际建立是按照链路预测的思路来构建的,正负样本比例为1:1,训练集-测试集比例为10:1。
第二步:在未来网络上计算节点PageRank值,以簇内节点PageRank值均值为主题PageRank值
在这里插入图片描述

3. 实验

实验设置什么的懒得写了,直接看图表吧。

用node2vec表征后的节点相似度案例分析:
在这里插入图片描述

聚类指标:
在这里插入图片描述

聚类效果案例分析:
在这里插入图片描述

聚类结果:
在这里插入图片描述

聚类结果的可视化:
在这里插入图片描述

“未来网络”构建的链路预测任务的指标:
在这里插入图片描述

以“遥感测绘”主题为例,展示哈达玛积+MLP上的原网络和未来网络上术语的PageRank值的变化:
在这里插入图片描述

打分打出来最高的10个术语,也就是最终得到的新兴技术:
在这里插入图片描述


在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸神缄默不语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值