海阔＆天空742-CSDN博客

原创 KG error/conflict detection

关于处理知识图谱错误和缺失信息的标准方法是“知识图谱细化”，这涉及针对每种类型的错误或缺失信息定制技术，但这有很多限制，首先是针对每种错误类型和缺失类型定制技术所涉及的开发时间和成本，第二是不可能针对未知类型的错误定制方法，我们不可能为未知的错误类型开发一种方法，第三是如果我们想在知识上运行一套不同的定制技术，图有可能是非常密集的（知识图谱非常大，新的事实添加到KG中时，图谱会变得更大，使这个问题变得更糟糕）。

2024-08-31 22:08:03 1212

原创论文阅读14--Association Rules with Graph Patterns

我们提出了用于社交媒体营销的图模式关联规则（GPAR）。GPAR 扩展了项集的关联规则，帮助我们发现社交图中实体之间的规律，并通过探索社会影响力来识别潜在客户。我们研究发现topk多样化GPAR的问题。虽然这个问题是 NP 难题，但我们开发了一种具有精度限制的并行算法。我们还研究了利用 GPAR 识别潜在客户的问题。虽然它也是 NP 难的，但我们提供了一种并行可扩展算法，可以保证随着处理器的增加，相对于顺序算法的多项式加速。使用现实生活和合成图，我们通过实验验证了算法的可扩展性和有效性。

2024-06-09 23:31:46 1261 1

原创论文阅读13---Keys for Graphs

由于键对于关系和 XML 至关重要，因此图也需要键。当关系被表示为图时，以及引用图结构的“数字对象”时，这种需求是显而易见的。它们对于知识融合和知识库扩展等新兴应用也很重要，以消除重复实体并融合来自引用同一实体的不同来源的信息。另一个应用是社交网络协调，用于协调多个社交网络上的用户帐户。然而，图表的键比传统的键更具挑战性。示例 1：我们通过使用知识库中各个领域的示例来说明图的键。考虑一个由三元组（s，p，o）组成的知识库G1，分别表示主语，谓语和宾语；例如，（专辑，由艺术家录制）表示专辑是由艺术家录制的。

2024-05-08 18:41:05 894 1

原创论文阅读12---TransE（知识图谱嵌入）,IterE,AMIE

我们考虑在低维向量空间中嵌入多关系数据的实体和关系的问题。我们的目标是提出一种易于训练、包含较少数量的参数并且可以扩展到非常大的数据库的规范模型。因此，我们提出了 TransE，一种通过将关系解释为对实体的低维嵌入进行操作的翻译来对关系进行建模的方法。尽管很简单，但这种假设被证明是有效的，因为大量的实验表明 TransE 在两个知识库的链接预测方面显着优于最先进的方法。此外，它可以在包含 1M 实体、25k 关系和超过 17M 训练样本的大规模数据集上成功训练。TransE 方法的优缺点优点。

2024-04-15 14:47:57 2325 1

原创基于知识图谱的知识推理

在介绍面向知识图谱的各类知识推理方法之前, 本节首先介绍知识推理的基本概念、传统的知识推理以及面向知识图谱的知识推理。知识推理根据推理类型可分为单步推理和多步推理两大类.每类又包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理.各类方法的汇总见表 2.总的来说,单步推理基于知识图谱中的事实元组建模,而多步推理在单步推理的基础上建模了多步路径的约束,表达能力往往比单步推理更强,推理预测效果更好.

2024-03-11 20:33:33 4319 4

原创图上模式挖掘

类Apriori方法在每一层频繁子图的挖掘过程中，算法都会产生大量的非频繁的候选子图。然后对候选的频繁子图执行支持度计数。对于所有频繁的候选子图，还需要进行图的同构测试，以减除重复的频繁候选子图。因为图的同构测试是一种NP完全问题，所以对于大规模的频繁子图进行图的同构测试是一个开销很大的过程，甚至是不可能完成的任务。因此，大量生成的候选子图和图的同构测试的巨大开销是Apriori类方法的性能瓶颈。

2024-01-18 21:00:17 1288 1

原创利用节点特征进行节点分类

根据节点的属性(可以是类别型、也可以是数值型)、边的信息、边的属性（如果有的话）、已知的节点预测标签，对未知标签的节点做类别预测。PyG内置了大量常用的基准数据集，以PyG内置的Planetoid数据集为例。Planetoid数据集类的官方文档为。我们在这里使用的是其中的Cora 数据dataset = Planetoid(root='dataset/Cora', name='Cora')#包括数据集的下载，若root路径存在数据集则直接加载数据集。

2023-12-07 20:30:23 1278 2

原创实战-----基于 PyTorch 的 GNN 搭建

在以上的实验中，我们对 PyG 中的图数据类以及自身具备的图数据进行了实践，整体而言比较简单，和 PyTorch 中的一些相关操作也有相似之处。唯一美中不足的是，在加载 PyG 中的图数据时经常会遇到问题，需要手工下载数据集并且修改原代码。1%29%7D网址在此。

2023-11-10 00:38:40 4435 4

原创论文阅读11-Survey on deep learning with class imbalance

本研究的目的是检验现有的深度学习技术，以解决类不平衡数据。使用不平衡数据进行有效分类是一个重要的研究领域，因为在许多现实应用中，例如欺诈检测和癌症检测，高等级不平衡是固有的。此外，高度不平衡的数据带来了额外的困难，因为大多数学习器会表现出对多数类的偏见，在极端情况下，可能会完全忽视少数类。在过去二十年中，使用传统的机器学习模型（即非深度学习）对类失衡进行了深入研究。尽管深度学习最近取得了进展，但随着它的日益普及，在深度学习领域中，几乎没有关于类不平衡的实证研究。

2023-10-30 20:59:45 474 1

原创论文阅读9-----GLOBAL EXPLAINABILITY OF GNNS VIA LOGICCOMBINATION OF LEARNED CONCEPTS

Interpretability of CNN 即CNN的可解释性，研究者们希望看到CNN每一层所做的事情，截止目前，人们已经逐渐向CNN的可解释研究靠近，但没有完全解决；类似地，自然语言处理的重要模型RNN也存在没有完全解决可解释性的问题；深度学习是基于数据而驱动的，对比传统的算法，往往是基于各种判断条件，再依次执行计算；深度学习可以认为是数据归纳统计的结果，让机器在海量数据中学习分布，以概率形式输出结果，中间的计算过程犹如黑箱（Black Box）

2023-09-26 00:48:35 666 1

原创图神经网络 Graph Neural Networks:Foundations, Frontiers, Applications &基于 node2vec 的电影推荐实验

近几年来，基于计算资源的快速发展以及大量训练数据的可获得性等原因，引发了神经网络的快速兴起与应用，并成功地推动了计算机视觉领域（Computer Vision, CV）与自然语言处理领域（Natural Language Processing, NLP）的发展与兴盛。

2023-08-29 12:40:25 972 2

原创论文阅读8-----Mining Summaries for Knowledge Graph Search

在响应时间等资源约束条件下，挖掘，搜索异构和大型知识图具有挑战性。本文研究了一种基于发现的知识图搜索框架。

2023-07-31 16:58:56 320 1

原创论文阅读5----“GrabCut” — Interactive Foreground Extraction using Iterated Graph Cuts

静态图像的高效、交互式前景/背景分割问题在图像编辑中具有重要的现实意义。经典的图像分割工具使用纹理(颜色)信息，如魔棒，或边缘(对比度)信息，如智能剪刀。最近，一种基于图割优化的方法成功地将这两种信息结合起来。本文从三个方面对图切方法进行了扩展。

2023-07-13 12:13:34 977 2

原创论文阅读4--CReST: A Class-Rebalancing Self-Training Frameworkfor Imbalanced Semi-Supervised Learning

知识补充不平衡学习最常用的方法是根据类别样本量重新平衡培训目标。其中两种方法具有代表性: a)重新加权，其通过将相对较高的成本分配给次要类别的示例来影响损失函数 b)重新采样，其通过对少数类的过采样或对多数类的过采样，或两者都直接调整标签分布，以获得平衡的采样分布。然而，天真地重新平衡目标通常会导致过度适应少数群体。最近，通过将特征从多数类转移到代表性不足的少数类，也提出了基于转移学习的方法。但是，这些方法假定所有标签都可用，并且不能直接应用于SSL方案。

2023-06-08 09:35:46 1006 1

原创论文阅读3--A Novel Memory-Efficient Deep Learning Training Frameworkvia Error-Bounded Lossy Compression

由于对预测精度和分析质量的要求越来越高，深度神经网络(DNN)正变得越来越深、越来越宽、越来越非线性。但训练宽深度神经网络需要大量的处理时间和计算资源，如内存、存储、I/O 等。在训练 DNN模型时，前向传播时必须先将中间激活数据保存在内存中，然后再恢复到后向传播。然而，由于硬件设计的限制，gpu等最先进的加速器只能配备非常有限的内存容量，这极大地限制了最大批处理大小(batch_size)，因此在训练大规模 dnn时性能加速。传统的内存节约技术，如数据重计算和迁移。

2023-06-06 14:03:53 216 1

原创论文阅读2--Video text localization based on Adaboost（基于Adaboost的视频文本定位）阅读笔记

如何从视频图像中准确、快速地提取文本是十分必要的。本文提出了一种基于Adaboost 的视频文本定位方法。

2023-06-01 00:17:46 643 1

原创论文阅读1--A Survey on Incomplete Multi-view Clustering（不完全多视图聚类的调查）阅读笔记

传统的多视图聚类基于所有视图都被完全观察到的假设，试图将数据划分到各自的组中。然而，在疾病诊断、多媒体分析和推荐系统等实际应用中，通常会观察到在许多情况下并非所有样本视图都可用，这导致了传统的多视图聚类方法的失败。

2023-05-20 20:21:01 3116 3

qq_56164625的博客