浅谈社交网络中垃圾用户检测

最新推荐文章于 2023-08-25 18:09:24 发布

Together_CZ

最新推荐文章于 2023-08-25 18:09:24 发布

阅读量7.3k

点赞数 8

分类专栏：社交网络杂谈

本文链接：https://blog.csdn.net/Together_CZ/article/details/72629943

版权

杂谈同时被 2 个专栏收录

42 篇文章 6 订阅

订阅专栏

社交网络

8 篇文章 3 订阅

订阅专栏

马上就步入研二的时期了，研究方向也是换了又换几经波折，最近定下来的研究方向为：社交网络数据中的垃圾用户检测，这是一个比较新的领域，毕竟中文博客sina微博起步和鼎盛也没有多久的时间嘛，从最开始的仿冒网站检测到接下来的社交网络中用户隐私保护又到社交网络中的个性化服务推荐到最终的垃圾用户检测这里，可以说是一个很漫长的曲折的道路，中间每个方面都看了很多的论文，在这里也不敢说自己很懂这个领域，只是说以我现在的阶段和认识来简单谈一下我对这个研究领域的看法和想法，毕竟看多了自然会有一点想法的嘛，下面是我的一个简单的总结：

问题背景：

社交网络中的垃圾用户经常对用户的隐私信息进行窥探、向用户推广业务、获取较高的知名度、传播虚假信息，以上这些行为可能会误导甚至欺诈用户。

垃圾账号：充满心灵鸡汤和网络摘抄、直接复制其他账号博文或图片、微博抽奖的作弊账号、刷排名的账号。

常见可疑行为：“僵尸粉”关注行为、垃圾传播、散播谣言、信息操纵等。

垃圾行为检测的应用场景：

应用：异常模式检测、垃圾信息检测、拍卖网中的欺诈检测、垃圾传播行为分析、视频平台中垃圾传播和内容推广者检测、社交媒体垃圾传播者的行为规律、个人资料可疑程度评价、异常用户组检测、假冒账号检测、需要消费者群体检测、操纵市场行为检测。

有垃圾行为检测需求的平台：网络、计算机系统、在线拍卖网站、在线视频网站、在线评论、社交媒体、Twitter、健康医疗应用、微博、Facebook。

行为模型设计中的关键属性

1、个人情感

2、个人属性：谨慎度。加入谨慎度增加检测的适用范围和性能。

3、行为属性：同步性（节点相互之间行为模式相似的程度）。

4、网络结构特征：亲和力（类似谨慎度）、度特征、聚类系数、PageRank

5、融合特征：个人概要特征、发布内容特征、行为特征、关系特征、历史特征、统计特征

6、网络信息特征：图特征、邻居特征、时间特征、自动化特征

7、用户与发布信息间的关系

前期研究中的重要结论：

1、动态行为、内容分享模式和时间信息在垃圾用户识别问题中很重要。

2、大多数垃圾用户采用一种合作策略与其他垃圾用户建立链接以形成“垃圾场”

3、尽管不同社会网络中的语言学特征并不相同，但其间并不存在明显不同。

4、垃圾用户为躲避系统检测，会经常改变自己的关注数量来维持关注数与粉丝数的平衡（Twitter）。

5、垃圾用户与垃圾信息间存在较强的联系。

6、垃圾用户与普通用户的发布行为模式存在一定差异。

7、谨慎度与其他属性存在一致的相关性，故具有描述用户的合理性。

8、垃圾账号之间是否存在互相关注，不同平台不尽相同。人人、微博几乎不会，Twitter会。

9、正常用户除了关注正常用户也会存在关注异常用户的现象。

用户识别方法：

属性角度

1） 用户关系信息

使用概率图模型识别多关系社会网络中的垃圾用户；利用链接信息，基于谨慎度、度特征、聚类系数和pagerank，利用随机森林算法进行垃圾用户识别；

不足：准确率较低。

2） 用户属性、在线行为和发布信息

使用用户个体属性和社会属性，采用SVM和懒惰联想分类方法进行识别；利用外部媒体先验知识，采用非负矩阵分解方法识别垃圾用户；视为异常检测问题，利用基本信息和微博流属性，采用改进的流聚类算法，小样本上召回率达到99%；微博和用户概要特征，采用SVM识别垃圾用户（监督方法）

不足：刻画不全面，精确度低。

3） 两者融合

使用用户统计特征、发布文本特征、行为特征和关系特征，准确率和F1均较高，证明：meta分类优于树分类、基于函数分类且度量方法适用于变化的训练集。对用户概要特征、朋友关系特征、发布内容特征和历史特征对区分垃圾用户能力进行检验，基于提出的特征采用随机森林方法识别用户，准确率为95%~98%。对发布内容、网络信息，采用矩阵分解框架达到高效的在线处理。对提出的图特征、邻居特征、时间特征和自动化特征利用随机森林、决策树、贝叶斯网和Decirate算法证明了本文特征的有效性。利用用户与信息间的发布关系设计约束函数，将预测问题转化为求解矩阵分解最优解问题，证明了模型准确率方面优于SVM、逻辑回模型、逻辑回归Lasso模型。