Mining Massive Datasets课程笔记(三)

Communities in Social networks

Community Detection in Graphs

The Affiliation Graph Model(AGM)

Plan:
1. 由给定的模型生成网络
2. 对给定的网络找到“best”model

Model of network
Goal:Define a model that can generate networks
这个model将有一系列的参数,后续需要估计和检测community
问题是:给定一系列节点后,communities是如何产生network的边的呢?
这里我们讨论的模型就称为Community-Affiliation Graph Model它是图的生成模型。如下图:
图片名称

回到我们的plan计划项中第一条,我们如何根据这个AGM模型生成network呢?

图片名称
由AGM模型的式子可以看出,只要两个节点在某一个共同的Community中有边,则认为这两个节点之间是边的。
下面这张slide表明了AGM模型的灵活性
图片名称

From AGM toBigCLAM

前面AGM模型中节点要么是某个Community的成员要么不是,即要么要边要么没有边,下面我们讨论的是如果edge表示的不仅仅是成员从属关系,而是成员在这个Community中的活跃度之类的信息,那么边的值就是一个>=0的值,等于0表示不是其成员,其它>0的值是一个degree。
图片名称

对于一个特定的Community A ,A中的两个节点u,v 之间有联系的概率计算如上图所示,不难理解其意义,如果两个节点都的degree in A都接近0,即都和Community A 的联系不紧密,那么上式结果也近似为0,那么这两者之间有联系的概率也很小,degree都接近1时反之。

上面讨论的是两个节点只共同出现在一个CommunityA里面,那么如果两个节点分在多个不同的Community都有重合呢
为了解决这个问题我们首先要介绍Community Membership Strength matrix F
如下图左边是matrix F,行表示各个节点,列表示Community
图片名称
和AGM类似,两个节点间有link的概率也是至少有一个Community C links these nodes的概率。于是有
图片名称

Solving The BIGCLAM

BigCLAM:How to Find F
有前面我们已经知道如果已知matrix F,求network的边的概率是可行的,
那么如何获得这个矩阵F呢?
图片名称
这里使用的是极大似然估计,通常我们采用取对数的极大似然函数。
图片名称
通俗来说就是找到参数F使得获得的网络图形尽可能类似于给定的网络图G。根据参数F我们知道可以获得一个网络图,这个网络图恰好就是给定的G的概率如上式argmax…因此求得这个概率的极大值即为估计的F矩阵。使用梯度上升法求极大值。
图片名称
上式中每一次迭代都需要计算所有的节点,因此很浪费时间,改进如下:
图片名称

Detecting Communities as Clusters

我去,手贱了一下把写好的东西都弄没了,还没上传,那这部分就直接总结大意好了,反正Week3的东西总体都很好理解。
What Makes a good Cluster?
图片名称

一个good cluster,它内部的connection要尽可能多,与外界的联系要尽可能少。因此我们定义了一个Graph Cut的概念。
图片名称

Cut指的是有且只有一个点在clusterA中的边,如图中黑色边
那么Cut score也就可以代表cluster quality中一个重要的部分了。即上张图中minimum的部分,即与外界的联系尽可能少。
但是单纯使用Cut score还不够,原因如下图最右边的绿色节点划分问题。
图片名称

因此我们需要在此基础上进行改进。

Graph Partitioning Criteria
图片名称

如上图, ϕ(A)=Cut(A)Vol(A)

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 《大规模数据挖掘》是由Jure Leskovec、Anand Rajaraman和Jeffrey Ullman合著的一本书,该书详细介绍了处理大规模数据集的技术和方法。 这本书介绍了数据挖掘的基本概念和技术。它讨论了从海量数据中提取有用信息的方法,包括数据预处理、模型构建、模式识别、分类、聚类等。这些技术可以应用于各种领域,如商业、科学、医疗等。 《大规模数据挖掘》着重介绍了处理大规模数据集的方法。随着互联网和计算设备的普及,我们面临着越来越多的数据。这些数据通常非常庞大,传统的数据处理方法无法适应。因此,本书提供了许多高效的算法和技术,以便有效地处理这些数据。 这本书还介绍了一些数据挖掘的应用场景。例如,它讨论了如何分析用户行为数据来改善个性化推荐系统的性能,如何挖掘社交网络数据来了解用户关系和社群结构,以及如何利用文本挖掘技术来分析大规模文档集合。 总的来说,《大规模数据挖掘》是一本关于处理大规模数据集的权威性书籍。它提供了丰富的理论知识和实践经验,对于那些从事数据挖掘研究和实践的人员具有重要的参考价值。无论是学者、数据分析师还是工程师,都可以从中获取有关大规模数据挖掘的深入理解和实用技巧。 ### 回答2: 《大规模数据挖掘》是一本关于数据挖掘的重要参考书籍。该书由Jure Leskovec、Anand Rajaraman和Jeffrey D. Ullman合著,主要介绍了大数据集上的挖掘技术和实践应用。它被广泛认为是数据挖掘领域的经典之作。 《大规模数据挖掘》首先介绍了数据挖掘的基本概念和技术,包括数据预处理、数据降维、聚类分析、分类与预测、关联规则挖掘等。其次,书中深入探讨了在大规模数据集上进行挖掘的方法和工具。例如,针对大量数据的处理,书中介绍了MapReduce、Hadoop等大数据处理框架,以及如何使用这些工具实现数据挖掘任务。此外,书中还详细论述了数据挖掘的各项技术在互联网、社交网络、推荐系统等领域中的应用案例。 《大规模数据挖掘》的特点之一是其实践性和案例导向。对于每个讲解的技术和方法,书中都提供了大量实例和应用案例,让读者能够更好地理解和应用所学知识。此外,书中还提供了大量的习题和编程作业,帮助读者巩固和应用所学知识。 总体而言,《大规模数据挖掘》是一本内容全面、实用性强的数据挖掘参考书。读者可以通过该书系统地学习和掌握大规模数据挖掘的基本理论、技术和实践方法。无论是对于学术界的研究人员还是对于业界的数据分析师,该书都是一本不可或缺的重要读物。 ### 回答3: 《大规模数据挖掘》是一本关于大规模数据处理和挖掘的经典教材。该书于2011年出版,作者为Jeffrey D. Ullman和Jennifer Widom,并且已被广泛用作大数据领域的教材。 这本书的主要目的是介绍如何有效地处理和分析大规模数据集。在当今互联网时代,每天都有大量的数据被生成和收集,但利用这些庞大的数据集进行有意义的信息提取是一项巨大的挑战。《大规模数据挖掘》从技术和理论的角度出发,讨论了数据挖掘的基本概念、常用算法和工具,帮助读者理解大规模数据挖掘的核心技术。 书中主要涵盖了数据挖掘的各个方面,包括数据预处理、相似性和聚类分析、异常检测、关联规则和频繁模式挖掘、分类和回归分析、推荐系统等。此外,还介绍了用于大规模数据处理的分布式计算、并行算法和存储系统。每个主题都以清晰的语言和丰富的实例进行阐述,使读者能够深入了解算法的原理和实际应用。 《大规模数据挖掘》的另一个重要特点是,尽管书中使用了一些数学和统计的概念,但作者非常注重将这些复杂的概念解释为容易理解和实际应用的形式。这使得读者无论是初学者还是专业人士都能够轻松理解和应用这些技术。 总的来说,《大规模数据挖掘》是一本权威且实用的大数据处理和挖掘教材。无论是从事数据分析的专业人士还是对数据挖掘感兴趣的读者,都能从中获得宝贵的知识和经验。阅读并掌握《大规模数据挖掘》不仅可以帮助人们更好地处理和利用大规模数据集,还可以为解决现实世界中的实际问题提供思路和方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值