降维打击:流量造假者,我知道你昨天干了什么?

640?wx_fmt=png加入知识星球社区,直接与傅一平互动交流


6点,上海。天色将晚,华灯初上。
 
随着小C的手起指落,定时群发已设置完毕。2小时后,小C的公众号会准时推送3篇时尚文章。
 
首篇点评夏日小红裙,第2篇推广高科技美白仪,第3篇推广某旅行自拍神器。
 
晚上8点。小C甚至没有打开手机查看阅读数——不会有任何意外,妥妥10万+。

10分钟,头条阅读122

20分钟,头条阅读310

1小时,头条阅读2万

3小时,头条阅读10万+

4小时,第2、3篇阅读突破10万+

还是太陡峭了,小C想,下次要他们刷的更缓一些。

但就是这个陡峭诡谲的10万+,将金主爸爸的指标干脆利落的达成,让2万广告费成功落袋。

而这10万+的刷量成本,不过3000元

流量造假,已成为这个行业的潜规则。利益劫持着数据,利益裹挟着行业人,行业人迷陷狂欢难以自拔。

1、公众号流量造假现状,惊悚骇人

2019年,人口红利枯竭、互联网流量见顶。 而虚假流量的规模,已达到令人惊骇的量级。

据腾讯安全2019年最新的统计,在某平台评选的 TOP500的KOL中,有 300+账号有(过)刷量作弊行为, 占比高达 70%。而这些作弊KOL的总年收入,高达 100亿 元。

据西瓜数据2019年对其监测的 13万 个公众号的分析,其中 1.5万公众号有刷量嫌疑,占比高达 11.9%

这些虚假流量的源头在哪?

7月25日,腾讯网络安全与犯罪研究基地的高级研究员张宝峰表示:目前国内各种刷量平台已达1000多家,位于头部的100家每个月的流水有200多万。受暴利驱使,很多地下产业从业者涌入这个行业,现在可以观察到国内从事刷量产业的人员规模累计达到900多万

2、打击刷量,技术难点在哪里?

现代的刷量手法是什么?

现代的刷量手法——“挂机刷”,通过各种渠道搜集、雇佣大量真实账号,用群控软件操控后,以一定频率和时间来制造流量。

该手法吸收了历代刷量手法(协议刷、人肉刷、群控刷)的优点,具有账号IP分布式、可规模化、性价比高、不易被防御策略识别等特点。

打击挂机刷,难点在哪?

挂刷机平台常会留下刷量痕迹,当前业内主流的流量监测服务商,采用分钟级监测技术,能有效监测到这种刷量痕迹,如本文开头所描述的陡峭诡谲的10万+、点赞数与阅读数不匹配等。

然而—

为规避监测,挂刷平台在不断演进,以模拟网民的阅读习惯和真实10万+的数据曲线。如改进刷量的速度和运作时间段,以合适的比例刷在看、点赞,采用NLP技术合成留言文本等。

下图为一款刷量工具的时间设置。平滑模式下,默认的流量时间曲线符合中国网民的实际阅读使用习惯;也可设定刷量时间段(如0-7点不刷量),及调节控制杆自定义刷量速度等。

640?wx_fmt=png

3、流量可以模拟,但用户画像难以模仿

如何打击进化后的挂机刷?

目前业内缺乏有效的技术手段,因为其监测的要素逃不脱时间、速度、速率等等,而这些要素很容易被模仿,至于评论,以后机器肯定可以干的比大部分真人好!

问题的本质跟那个经典问题很像:“在互联网时代,你并不知道对面跟你聊天的是一只狗!”也就是说,只要不线下碰面,通过线上行为表现出来的特征大都是可以被模仿的。

那么,什么东西很难模仿?

笔者认为至少有两个。

第一是个人生活属性不可模仿。

你要上网就必须实名申请手机号,手机号一定程度上就代表着一个自然人,当然你可以说黑市囤积了很多非实名手机,这些手机号在刷量的时候当然可以表现的像个自然人,但自然人是需要线下生活的,而刷量的手机不太可能过上一个自然人正常的生活,这就是突破点。

比如刷量手机不会有亲戚打电话,不会上班下班,不会有正常的娱乐生活,它的线下生活“一塌糊涂”。

第二是群体用户特征不可模仿。

每个垂直媒体都有自己的受众群体,这些受众群体的特征是不同的,比如“与数据同行”这个微信公众号主要面向大数据行业的专业人士,其群体特征就是IT职业为主通信人士占比很高80后现在是主流

刷量的手机很难模拟这些群体的特征,因为数据维度太多,模仿成本高到无法想象,再说了,如果刷量的从业人员能够将数据做到这个程度,根本不需要靠刷量赚钱。

因此,要从根本上解决流量欺诈,就不能仅考虑单一检测要素,而要进行多维度分析,这就是:降维打击

可惜的是,无论是自然人的识别,还是群体特征的刻画,对于数据和模型的要求太高了,怎么办?

最近,浙江移动给出了自己的解决方案!

4、神灯“微洞察”,提供新打击手段

浙江移动神灯大数据的“微洞察”产品,提出一种打击虚假流量的新技术——“粉丝特征偏移分析”,能 有效应 对进化后的虚假流量。


微洞察,一款深耕微信生态的公众号运营分析工具,提供公众号多维度分析、内容聚合搜索、个性化排行榜、公众号对比等服务。

“粉丝特征偏移分析”技术,将A公众号的粉丝画像特征,与本类别基本面的粉丝画像特征进行比对,当发生显著偏移时,则该公众号存在刷量嫌疑;将A公众号某篇推文的读者画像,与A号自身的粉丝画像特征进行比对,当发生显著偏移时,则该篇推文存在刷量嫌疑

下图为“微洞察”所监测的某公众号7月25日的推文阅读数曲线。该公众号是个著名的搞笑趣闻类公众号,活跃粉丝300万左右,头条和非头条的阅读数均为10万+。

从分钟级监测来看,该条推文的阅读数并没有任何异常(横线停滞处为凌晨0点-7点)。

640?wx_fmt=jpeg

然而,当 用“粉丝特征偏移分析”来分析,流量造假便无处遁形。

造假推文在多个维度已显示出显著偏移,下面两张图描述了 年龄维度、性别维度上的偏移。

年龄维度上, 公众号整体粉丝画像、前几天推文(7月15日)、后几天推文(7月28日)三者的年龄段分布高度一致;而造假推文(7月25日)的年龄段分布则截然不同,偏移显著:60后读者占比 突增 10% ,70后读者占 突增 10% ,80后读者占比 突增 10% ,90后读者占比 锐减 25%

性别维度上,正常推文的性别分布与整体的高度一致,造假推文(7月25日)的女性占比从50%突增到 64%

640?wx_fmt=png


640?wx_fmt=png

特征偏移显著,可以断定, 本次推文存在虚假流量。如果非要追究,why?推文文末某明星演唱会的广告,大概暗示了此次造假的动机。

当前,“微洞察”产品依托于浙江移动强大的数据中台能力,刻画人群特征的标签已经达到 万级别 ,对外服务的客户超过千家,以下是一个刻画某公众号粉丝的画像示例。
640?wx_fmt=png

5、浙江移动神灯大数据商务联系


如果你有进一步了解和合作的需求,可以扫描下图二维码,关注“浙江移动神灯大数据”公众号,以便获得更详细的产品介绍及商务联系方式。

“浙江移动神灯大数据”公众号立足于推送基于大数据的客户洞察和黑技术干货文章,欢迎关注!

640?wx_fmt=png

注:本文图表和数据转载自“浙江移动神灯大数据”公众号文章《流量狂欢:繁盛还是欺诈,捷径还是末路?》

作者:傅一平 (微信号:fuyipingmnb)


可能错过的近期精选文章(点击链接即可阅读)

从芝麻信用分透露的详细数据设计,我们能从中得到什么启示?

艰难的旅程,你的数据中台到底能为一线提供多少火力?

PPT,考验你的格局、能力和思维的方式,你得学会驾驭它!

如何避免成为一台取数机器?

哪些广为人知的数据挖掘案例其实是一地鸡毛?

数据的价值到底如何评估?

为什么我提交的数据分析报告总是被领导K?

我如何用统计学指导自己的生活?

从吴军的“算法的油水就那么多”说起!

中国移动集中化大数据平台起航了,意义深远!


一起成长,让我们与数据同行

忙完工作,偷得浮生半日闲,讲述自己的数据人生

大叔/电信博士/500强央企/大数据/人工智能/统计取数/数据挖掘/数据产品/数据管理/数据仓库/数据变现

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值