《在线社交网络群体发现研究进展》论文阅读笔记

《在线社交网络群体发现研究进展》

本文记录阅读《在线社交网络群体发现研究进展》(2017,潘理等,电子信息学报)论文的笔记,主要的一些概念上的参考

如何理解在线?

在线社交网络与传统社交网络不同的是,在线社交网络是以在线社交媒体平台为基础,也可以理解为传统(心理学、社会学、人类学,由于社会关系/社会活动的相互影响被专家发现)社交网络在互联网空间中的映射。

如何理解群体?

概念

传统社交网络中的群体:
通常可以将群体理解为由两个或两个以上个体,因为一些相同的内在因素,如兴趣、目标、 利益等,自发地或者有组织地聚集在一起形成的集合。集合内个体能够进行互动或信息传递共享,进而相互产生影响。

群体中的连接

这些群体中,传统的社会关系被淡化,用户之间通过建立好友关系或互动行为产生相应的连接,这些连接是群体形成的基础。根据连接的性质,在理论上可以将社交网络中的连接分为 4 类:邻近连接、好友关系连接、互动连接和信息流连接。基于前两种连接,用户之间形成相应的关系网络;而基于后两种连接,用户之间能形成相应的交互网络。同时,网络结构是在线社交网络的基本组成部分,很多群体除了属性相似,在结构上也紧密连接,这些群体与传统的社区又有一定的联
系。

群体与社区的区别与联系

社区是网络中的子图,其中该子图内节点连接密集,子图外节点连接稀疏。
在线社交网络中的社区只要求结构上连接紧密,但未考虑网络其他的属性信息,因此挖掘出的社区中包含的个体在属性上未必相似。而在线社交网络中的群体种类繁多,部分类别的群体基于某些特定属性特征聚集,但在网络结构上不一定连接紧密,因此这些群体无法使用传统的社区发现方法挖掘。
image.png
一方面:
(1)结构内聚、属性相似、具有社会化语义特征的社区是群体
(2)只有结构内聚,没有语义特征的只是社区,不能称作群体
另一方面:
(1)只有属性相似,但连接松散,没有结构内聚的群体就不是社区
特殊群体是一类具有特殊行为模式的群体。部分具有结构内聚特征的特殊群体同时也是社区。

在线社交网络中的群体概念:

综合群体的各项特征,这里我们将在线社交网络中的群体定义为以社交媒体为平台,属性相似性为基础,结构上连接紧密为重要可选特征的一类个体及其相关属性组成的集合。
数学定义如下:
image.png

在线社交网络中群体的特征有哪些?

包括用户在在线社交媒体平台上的交互关系和各种属性信息的统计特性。群体发现正是基于这些特征来实现的。

传统社区发现与在线社交网络群体发现的区别与联系?

传统的社区发现基于社区结构内聚的思想,主要考虑社交网络在结构上内聚的特征,即同一社区内的节点连接紧密,不同社区内的节点之间连接稀疏,而对社区形成的机理、目的、意义等关注较少。
在线社交网络群体发现则更为关注个体在内容、行为等属性特征上的相似性。所以,仅仅基于结构连接稠密性的社区发现方法难以用于发现内容、行为等属性特征上相似的群体。

两类方法

1. 基于属性特征的群体发现方法
2. 基于综合属性和结构特征的群体发现方法

这两类方法能够有效发现当前社交网络中的恶意群体。当前在线社交网络中存在着一些特殊的恶意行为群体。这些群体因为特定的行为目的聚集,且具有特定的行为模式,如谣言群体,水军群体等。

基于个体属性特征的群体发现方法

个体属性的含义:反映的是个体的兴趣、身份、归属等信息.聚类和分类是处理属性相似特征的两类常用的检测算法。
由此分为两类方法:基于属性聚类的群体发现方法(有监督)、基于属性分类的群体发现方法(无监督)
image.png

综合属性与结构特征的群体发现方法

为什么要使用该种方法?
为了发现属性相似且结构内聚的群体结构,需要综合属性与结构特征设计群体发现方法。
综合性方法也分为发现一般化群体的聚类方法发现特定目标群体的半监督方法
发现一般化群体的聚类方法不需要样本信息,仅基于个体属性相似性和连接紧密性聚合群体
按照所需属性范围,可分为三类方法:基于属性全空间聚类的群体发现方法、基于属性子空间聚类的群体发现方法和目标群体发现方法

基于属性全空间聚类的群体发现方法

要求群体内部个体在属性全空间下尽可能相似
基于属性全空间聚类的方法将属性和结构结合的思想引入到社交网络群体发现领域,但是随着获得的个体属性信息越来越多样化且属性维度越来越高,个体在属性全空间下的相似度越来越缺乏区分能力,因此全空间方法已难以满足群体发现的新要求

基于属性子空间聚类的群体发现方法

不同于基于属性全空间聚类的方法,基于属性子空间的群体发现方法为每个群体分配一个属性子集,要求群体内个体在属性子集内相似,即在属性子集组成的属性子空间上聚类群体。
事实上, 在线社交网络中的个体很难在所有属性(全空间)上相似,每个群体内的个体仅在部分属性上相似,因此基于属性子空间的群体发现方法符合在线社交网络的特性。
此类方法的难点是:属性子空间聚类方法相对于属性全空间的最大难点就是属性子空间未知。因此,这一类方法需要在挖掘群体的同时选取最佳的属性子空间。——>有学者提出许多属性子空间发现的方法

目标群体发现方法

目标群体发现方法从特定的群体描述或者特定的样本个体出发,有目标的挖掘特定的群体。
目标群体发现方法通常不需要划分整个网络,只需挖掘符合目标的群体
三类方法对比:
image.png

恶意群体发现

恶意行为群体对社交网络造成的负面影响越来越不可忽视。在大量相关研究中,spam, sybil 和谣言是 3 类研究最为广泛且具有明确定义的恶意行为群体。
image.png
恶意行为群体具有隐蔽性与反检测性,从一般化群体中鉴别出恶意行为群体需要挖掘与利用恶意行为群体不同于一般化群体的特征。
可以从 特征提取 和 检测算法 两方面来入手

恶意行为群体的特征提取(提取后往往会结合多种特征)

目前对于恶意行为群体的描述通常基于两个方面的特征,即结构和属性上的特征。
结构特征:
包括全局结构特征(利用网络全局结构信息)和局部结构特征(利用网络局部结构信息)
属性特征:
用户属性特征描述了用户所具有的特性,包括人口统计属性、内容属性和行为属性等,其中内容属性和行为属性是恶意行为群体检测中常用的属性特征。用户的内容属性特征包括用户所发布、关注或转发内容的文本或语法的统计信息,是一类比较容易获得的属性特征,并且隐含了用户的话题、情感等多种信息。
行为属性是用户行为方面的统计特征。基于不同的行为目的,恶意行为群体与正常用户有着不同的行为模式,因此,可以通过对恶意行为群体行为模式的理解,找出能够与正常用户行为模式相区别的行为属性。

恶意行为群体的检测算法

分为有监督的分类算法和无监督的聚类算法。
分类算法:
在建立恶意行为群体的检测模型时需要根据不同的应用场景和数据特征选择合适的分类算法。同时,为了提高精确度,模型中通常采用十折交叉验证法来评估。
聚类算法:
根据恶意行为群体和正常用户群体在所选特征集上差异较大,而同一恶意行为群体内的个体在所选特征集 上差异较小这一特点,定义相似度指标,根据相似度逐点聚类。在这一类检测模型中,相似度指标或相应的距离指标的定义具有关键性意义。

未来展望

特征方面
  1. 如何融合多维度的特征?
  2. 现有方法主要集中在一般化的结构连接紧密特征和人口统计属性相似特征,对用户的行为和情感等更加反应社交网络用户内在特性的特征关注较少,而这些特征往往是突发群体形成的关键因素
社交网络本身

关注社交网络的动态演化特性

恶意群体发现
  1. 在恶意群体检测研究中,要结合各种恶意行为群体的不同特点选取适当的特征
  2. 特征融合/多种特征相结合
  3. 特征选择(通过机器学习方法)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值