TIFS_2013_Empirical Evaluation and New Design for Fighting Evolving Twitter Spammers

最新推荐文章于 2024-07-19 19:07:20 发布

seLc7

最新推荐文章于 2024-07-19 19:07:20 发布

阅读量749

点赞数

分类专栏：阅读文章标签： twitter url spammer detecting

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/se_lc7/article/details/38084557

版权

阅读专栏收录该内容

4 篇文章 0 订阅

订阅专栏

整篇文章基本上是描述对于twitter上的spammer进行检测。

本文中作者不关心twitter中的广告用户，只对含有恶意URL链接的用户感兴趣。

首先是用了2个方法来检测恶意或者是钓鱼的URL。

①Google Safe Browsing (GSB) 该方法是基于黑名单

②URL honeypot 基于Capture-HPC 在虚拟机中使用真实浏览器浏览URL

接着对恶意用户的规避策略进行了分析。

大致上可以分为两类：

①profile-based feature 根据关注数、粉丝数、发推数（followings、followers、tweets）

②content-based feature 根据发推内容包含的URL链接所占比例

恶意账号可以通过获取更多的粉丝（gainning more followers：购买、交换、自我创造）和发送更多推文（使用工具：Auto Twitter 、Twitter API）两种方法来规避基于轮廓的特征策略。

通过混要正常推文发送（Mixing Normal Tweets）和发送混杂推文（Posting Heterogeneous Tweets：不同的描述方式来重复同一内容：Spinbot）这两种方法来规避基于内容的特征策略。

作者设计了10个检测特征，包含：3个基于图的特征（graph-based features）、3个基于邻接点的特征（Neighbor-based features）、3个基于自动化的特征（automation-based features）和1个基于时间的特征（timing-based feature）。

基于图的特征和基于邻接点的特征是为了检测那些企图通过控制自己的社交行为来绕过基于轮廓特征检测策略的恶意账号，这些账号可以在一定程度上管理自己的行为，但是难以改变他们的关注用户和粉丝的行为。

基于自动化的特征和基于时间的特征是为了检测那些通过增加合理合法推文来规避内容检测的用户。

A.Graph-based feature

即使spammer能改变其自身的一些行为，但是想改变其在图中所处的位置还是比较难的。

将 twitter account 视为结点→ i

每个关注关系视为有向边 → e

得到有向图（directed graph） G=（V,E）

设置了三个特征值

①local clustering coefficient 本地集聚系数

|e^v| 表示所有邻接节点之间的所有的边数

K_v表示该节点入度出度的和

可见spammer的本地集聚系数会比较小。

②betweenness centrality 中介中心性（中间中心度）

δ_st(v)表示从s到t所有包含v结点的最短路径数

δ_st表示从s到t所有的最短路径数

n表示所有结点数

中间成员对路径两端的成员具有更大的“人际关系影响”。如果一个成员位于其他成员的多条最短路径上，那么该成员就是核心成员，就具有较大的中间核心性。

量化：

（1）各条线路的权系数相等；

（2）通讯过程中总是走最短路径；

（3）当存在不止一条最短路径时，每一条的使用概率相等。

本质：网络中包含成员 i 的所有最短路径的条数占所有最短路径条数的百分比。表示成员 i 的控制能力。（更多内容可以参考维基百科）

可见spammer会有更高的中介中心性。

③bi-directional links ratio 双向链接比

N_bilink表示双向链接数

N_fing表示关注的人数

B.Neighbor-based feature

①average neighbors' followers

②average neighbors' tweets

③following to median neighbors' followers

前两个特征主要是关注用户的粉丝数量平均值与发推数量平均值。

C.Automation-based feature

①API² Ratio 通过API发推数/总发推数

②API URL Ratio 包含URL的通过API发送的推数/通过API发推总数

③API Tweet Similarity API发推的相似度

D.Timing-based feature

following rate 关注其他用户的速度

（未完待续）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TIFS_2013_Empirical Evaluation and New Design for Fighting Evolving Twitter Spammers

整篇文章基本上是描述对于twitter上的spammerjinx
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。