社区发现
土豆西瓜大芝麻
这个作者很懒,什么都没留下…
展开
-
什么事社区发现
朋友要我通俗地讲讲什么是“社区发现”,这下还真觉得有些为难。之前写东西,上来就是概念、术语、公式和算法,这些对于有专业基础的朋友当然没问题,但对于那些没有基础而且也只想知道个大概的朋友显然就不适合了。尝试着写了写,觉得通俗和严谨之间的度还真不容易把握。看来,通俗易懂地表达东西也是门需要花时间修炼的功夫,以后这样的内容还是要多多练习才行。如果你仔细观察,你会发现,我们的生活中存...转载 2019-12-16 02:04:55 · 721 阅读 · 0 评论 -
Louvain 算法的核心思路以及数据结构(最完善版)
模块度:Louvain算法是一种基于图数据的社区发现算法。原始论文为:《Fast unfolding of communities in large networks》。算法的优化目标为最大化整个数据的模块度,模块度的计算如下:其中m为图中边的总数量,k_i表示所有指向节点i的连边权重之和,k_j同理。A_{i,j} 表示节点i,j之间的连边权重。有一点要搞清楚,模块度的概念不是Lo...转载 2019-12-12 14:07:07 · 2095 阅读 · 0 评论 -
infomap核心问题(补充)
社区发现类算法似乎并不存在一个最好的算法,因为在现实数据中对于社区或者说团伙的定义千差万别,不一定都跟算法的假设匹配。有一些学术文章尝试过对于最近十几年提出的算法进行比较,发现在一些常规评价指标(比如,modularity)上表现比较好的算法,可能在有 ground truth 的真实数据上表现不太好;在其中一些真实数据上表现好的算法,可能在另一些真实数据上表现并不好。在现实应用中,最为保险的做法...转载 2019-12-01 22:19:29 · 533 阅读 · 0 评论 -
infomap核心问题(补充)
算法核心思想社区发现类算法似乎并不存在一个最好的算法,因为在现实数据中对于社区或者说团伙的定义千差万别,不一定都跟算法的假设匹配。有一些学术文章尝试过对于最近十几年提出的算法进行比较,发现在一些常规评价指标(比如,modularity)上表现比较好的算法,可能在有 ground truth 的真实数据上表现不太好;在其中一些真实数据上表现好的算法,可能在另一些真实数据上表现并不好。在现实应用中...转载 2019-12-01 22:18:27 · 765 阅读 · 0 评论 -
Louvain算法介绍
Louvain算法一种基于模块度的图算法模型,与普通的基于模块度和模块度增益不同的是,该算法速度很快,而且对一些点多边少的图,进行聚类效果特别明显。算法流程:1、初始时将每个顶点当作一个社区,社区个数与顶点个数相同。2、依次将每个顶点与之相邻顶点合并在一起,计算它们的模块度增益是否大于0,如果大于0,就将该结点放入该相邻结点所在社区。3、迭代第二步,直至算法稳定,即所有顶点所属社区不再变...转载 2019-12-01 21:50:49 · 8968 阅读 · 7 评论 -
图计算中的专业基础知识
1 前言打算先普及一下图的相关理论支持,本文不建议一口气阅读完毕,可以先浏览一遍,在后续有需要的时候进行查阅即可。2 图图是数据结构中重要内容。相比于线性表与树,图的结构更为复杂。在线性表的存储结构中,数据直接按照前驱后继的线性组织形式排列。在树的结构中,数据节点以层的方式排列,节点与节点之间是一种层次关系。但是,在图的结构中数据之间可以有任意关系,这就使得图的数据结构相对复杂。2...转载 2019-04-03 15:34:51 · 410 阅读 · 0 评论 -
数据压缩的本质
对超大规模网络进行划分,得到诸多子图,是否可以用熵来解决呢?对于一个给定的图,其信息量是固定的,图划分会给图的信息带来什么?图的划分或者折叠,是否就是对图的压缩呢?先来个小例子:有一段文字“我我我我我我有点喜欢喜欢喜欢喜欢lxlxlxlxlxlxlx”一共14个汉字加上14个字符,现在采用某种压缩算法,将其压缩为这样一种形式“6个我1个有点4个喜欢7个lx”一共9个汉字加上6个字符(包括数字跟...转载 2019-03-31 03:05:21 · 3537 阅读 · 2 评论 -
数据压缩与信息熵
1992年,美国佐治亚州的WEB Technology公司,宣布做出了重大的技术突破。该公司的DataFiles/16软件,号称可以将任意大于64KB的文件,压缩为原始大小的16分之一。业界议论纷纷,如果消息属实,无异于压缩技术的革命。许多专家还没有看到软件,就断言这是不可能的。因为根据压缩原理,你不可能将任意文件压缩到16分之一。事实上,有一些文件是无法压缩的,哪怕一个二进制位,都压...转载 2019-03-25 08:49:20 · 583 阅读 · 0 评论 -
infomap map equation的理解
在诸多互联网金融风控的场景里,团伙识别是相当重要的一项工作。如果恶意攻击者以团伙的方式尝试获取利益,比如骗贷、骗保、薅羊毛,通常都会给对应的公司带来不小的经济损失。团伙识别有各种各样的方法,其中最主要的方法就是“社区发现”(community detection)类算法,常规的方法有 Louvain,Label Propagation,Infomap 等等。算法核心思想社区发现类算法似乎并...转载 2019-03-25 00:40:18 · 3080 阅读 · 0 评论