诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类
论文全名:新兴技术的多指标量化识别研究——基于向量表征方法的探索
本文是2022年《图书情报工作》期刊的文章。
本文的研究目标是识别“新兴技术”,研究方法是从文本数据中找出具有“融合性、新颖性与潜在的科学影响力”这些特质的主题。
技术思路比较简单,文本数据来自论文,用termolator算法抽取术语,构建文档的术语共现网络(边权是共现频次),用node2vec进行节点表征,通过minibatch K-means++聚类得到主题向量,主题的交叉融合性是主题向量和相关向量的余弦相似度,新颖性是簇内术语最早出现时间的均值,潜在科学影响力是对节点对进行重构后得到的新网络的PageRank值。然后结合这三个指标的得分筛选出“新兴主题”。
1. 构建术语表征网络
抽取术语的算法:
用node2vec进行节点表征:
2. 对术语进行打分
交叉融合性:
潜在科学影响力:
第一步:对每一个节点对,通过以下方法之一(具体怎么选看实验部分)得到一个权重:
从而得到一个“未来网络”。这个模型实际建立是按照链路预测的思路来构建的,正负样本比例为1:1,训练集-测试集比例为10:1。
第二步:在未来网络上计算节点PageRank值,以簇内节点PageRank值均值为主题PageRank值
3. 实验
实验设置什么的懒得写了,直接看图表吧。
用node2vec表征后的节点相似度案例分析:
聚类指标:
聚类效果案例分析:
聚类结果:
聚类结果的可视化:
“未来网络”构建的链路预测任务的指标:
以“遥感测绘”主题为例,展示哈达玛积+MLP上的原网络和未来网络上术语的PageRank值的变化:
打分打出来最高的10个术语,也就是最终得到的新兴技术: