数据挖掘
文章平均质量分 89
siyan985
这个作者很懒,什么都没留下…
展开
-
社区发现算法总结
Kernighan-Lin算法先以任意方式将网络顶点按指定规模划分为两个群组,然后,对于任意一对不属于同一分组的节点对,交换两个节点,计算交换前后两个群组割集规模的变化量。在所有节点对中找到使割集规模减少最多的顶点对。如果没有使割集规模减少的定点对,在选择使割集规模增加最小的节点对,然后交换两个节点。重复该过程,被交换过的节点不再参与交换,直到没有可以交换的顶点为止。记录所有交换后的状态,选择割集规模最小的状态。原创 2022-09-05 00:20:00 · 4489 阅读 · 0 评论 -
节点中心性
度中心性,介数中心性,Katz中心性,紧邻中心性,PageRank原创 2022-07-31 19:56:04 · 1786 阅读 · 0 评论 -
K-Core, K-Shell & K-Crust傻傻分不清楚
K-Core(K-核)就是所有大于等于K的K-Shell的并集;K-Crust(K-皮)就是所有小于等于K的K-shell的并集。原创 2022-07-29 20:44:46 · 1559 阅读 · 0 评论 -
Semi-Supervised and Self-Supervised Classification with Multi-View Graph Neural Networks
摘要图神经网络在图结构数据中取得了很好的效果但是大多数的模型使用的还是叫浅层的结构,当模型层数加深时很容易过平滑。本文基于多视图来聚合更多的信息。我们首先设计两个互补的视图来描述全局结构和节点特征相似性,然后使用注意力策略融合节点表示。最后,通过在不同视图上使用对比学习来学习节点的表示。引言GCN是每层聚合一次一阶邻居的信息,通过增加层数迭代聚合邻居信息。但随着网络层数的增加,效果会严重下降。实验发现使用RELU作为激活函数的GCN随着层数的增加效果严重下降而使用其他激活函数图tanh有减缓过平滑的效果原创 2022-07-06 20:50:20 · 707 阅读 · 0 评论 -
Data Augmentation
自监督深度学习模型的精确性严重依赖于训练时数据的多样性和数据量。模型要想在更复杂任务上有较好的效果一般会有大量的隐藏单元。一般在训练过程中训练隐藏单元越多需要的数据越多,即任务复杂度与参数量与需要的数据量成正比。由于训练复杂任务时数据的缺乏,迁移学习往往被应用并取得较好的结果但是对于指定任务创建预训练模型依旧严峻。另一种解决数据不足问题的技术便是数据增强即通过在可用数据上转化合成新的数据。数据增强可用来解决训练数据的多样性和数据量的问题。数据增强技术依赖于数据的类型。对于常规的数字型数据,常见的技术包括SM原创 2022-07-05 10:57:36 · 479 阅读 · 0 评论 -
inductive learning 与 transductive learning在图神经网络上的区别
由于在图数据上的学习需要考虑图的结构信息,在模型训练时需要将全图输入,所以训练时会使用到没有标记信息的数据,所以使用的是transductive方式,一旦图的结构发生变化,需要重新学习。当图结构非常的时,内存可能无法全部放下数据,因此需要对图进行采样,如graphSage。那么采样到的数据就可以不包含没有标记的结点,因此可以使用inductive方式学习,这样模型就有一定的迁移能力,可以预测没有见过的结点。标准的半监督要求数据满足独立同分布假设,但是在图数据中并不遵循该前提,图机器学习不是标准机器学习原创 2021-07-13 21:54:20 · 689 阅读 · 0 评论 -
2021-05-19图神经网络小结
图神经网络的引入图神经网络能够实现强大的非结构学习的能力,能够从非结构化数据(例如:场景图片、故事片段等)中进行学习和推理。尽管传统的深度学习方法被应用在提取欧氏空间数据的特征方面取得了巨大的成功,但许多实际应用场景中的数据是从非欧式空间生成的,传统的深度学习方法在处理非欧式空间数据上的表现却仍难以使人满意。最早,研究人员也借用图谱理论的知识,如用拉普拉斯矩阵的特征值和特征向量做社区分析或者人群聚类等.随着深度学习的崛起,研究人员开始考虑把深度学习的模型引入到图数据中,代表性的研究工作是网络嵌.原创 2021-05-19 20:10:02 · 655 阅读 · 0 评论 -
Representation learning表示学习
机器学习(Machine Learning,ML)是指从有限的观测数据中学习(或“猜 测”)出具有一般性的规律,并利用这些规律对未知数据进行预测的方法。传统的机器学习主要关注如何学习一个预测模型。一般需要首先将数据表示为一组特征(Feature),特征的表示形式可以是连续的数值、离散的符号或其他形式。然后将这些特征输入到预测模型,并输出预测结果。这类机器学习可以看作浅层学习(Shallow Learning)。浅层学习的一个重要特点是不涉及特征学习,其特征主要靠人工经验或特征转换方法来抽取为了提高.原创 2021-05-03 11:43:08 · 1349 阅读 · 0 评论 -
机器学习与深度学习中概率论知识的回顾
概率与统计: 统计:给定样本,推测总体分布,概率:给定总体分布 ,推测样本概率归纳与演绎:归纳就是从个别到一般,演绎则是从一般到个别随机变量:可以随机地取不同值的变量,是对可能的状态的描述。可以是离散或连续概率分布:描述随机变量取每个可能状态的可能性大小。概率质量函数(probability mass function),离散型随机变量的概率分布。概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。注:所有状态的概率质量函数之和为1.每个状态的概率介于0到1之间,可取到边原创 2021-03-29 19:52:41 · 439 阅读 · 0 评论 -
A Collaborative Learning Framework to Tag Refinement for Points of Interest
摘要POI的标签可以促进基于位置的服务比如位置搜索或者地点推荐。但是很多POI的标签并不完备或者不精确,本文目的是自动填充缺失的标签和纠正噪声标签。文章通过设计一个三自适应的协同学习框架搜索理想的POI-tag得分矩阵。框架分为三个部分1)建模POI和tag之间的相似性2)通过矩阵分解恢复POI-tag的模式3)通过最大似然估计推测最有可能的标签s动机根据观察发现,尽管最初的POI标签不完美但仍然透漏着POIs和相关tag之间的语义信息。我们可以把这种关系看作得分矩阵,分数代表标签和POI之..原创 2021-03-24 21:08:41 · 237 阅读 · 0 评论 -
DAN-SNR: A Deep Attentive Network for Social-Aware Next Point-of-Interest Recommendation
摘要推荐下一个感兴趣的位置(POI, point-of-interest)近年来吸引了很多研究者的兴趣。先前的研究企图整合一些时空信息和序列信息预测用户下一个访问点。但是,还没有方法考虑到使用目标用户的好友社交信息。本文通过使用一个深度的注意力网络,考虑到了社交影响。本文通过设计两个并行的通道分别扑获用户的短期兴趣和长期兴趣并考虑到社交影响。动机LBSN(Location-based network)是一种社交网络,用户的下一步决策在一定程度上会受到LSBN中其朋友的影响。比如对于用户1来说..原创 2021-03-23 21:17:47 · 761 阅读 · 0 评论 -
DeepAR:Probabilistic forecasting with autoregressive recurrent network
DeepAR:Probabilistic forecasting with autoregressive recurrent network一般的时间序列预测方法是做点预测,即预测未来某个时间点的具体值。但对于一些具体业务比如预测销量来说预测一个概率区间更加易于决策。DeepAR是一个做概率预测的方法,同时也可以做点预测。首先简单介绍一下时间序列和常见的处理方法一、方法介绍DeepAR是一个基于自回归循环神经网络的预测方法,可以用于概率预测。通过在大量相关的时间序列的历史数据上学习一个全局的模型。原创 2020-11-09 15:01:15 · 2435 阅读 · 1 评论 -
FP-growth算法原理解析
FP-growth算法(FP, Frequent Pattern)FP-growth算法只需要对数据库进行两次扫描。而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定的模式是否频繁,因此FP-growth算法要比Apriori算法快。FP-growth算法只需要扫描两次数据集,第一遍对所有数据元素出现次数进行计数,第二遍只需考虑那些频繁的元素。发现频繁项集的基本过程分为两步,构建FP树和从FP树中挖掘频繁项集。简单来说,算法的目的就是在多个出现的数据项中找到出现次数最多的数据项或者原创 2020-10-15 16:33:26 · 6405 阅读 · 1 评论