GitHub黑市曝光!高档刷星6元一颗,最奇葩开源项目97%都是刷的!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉和Transformer】交流群

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料,以及最前沿项目和应用!投论文强烈推荐!

6251dd23ec1a8515e1596411b2697ba5.jpeg

梦晨 克雷西 发自 凹非寺
转载自:量子位(QbitAI)

在黑市买GitHub星星多少钱?

最贵的高达6元一颗

有创业者Yassin Eldeeeb自掏腰包测试了一把。他足足花20欧元(约156人民币),只买到25颗“高级星星”。

f44739608b49713a2720e414575edc88.png

没错,在黑市上刷GitHub星星也是分高低贵贱的。

高级的都是注册一年以上的账号来刷,昵称头像工作地点等个人资料非常自然绝不重样。

甚至至少还有一个对其他开源项目的贡献记录等,不但算法检测不出来,肉眼看也没毛病。

c097f64e6513da35ef1070c21cc500ac.png

便宜的最低可做到0.4-0.88元一颗星星,这种就是最简单的新注册空号去刷了,默认头像,随机生成昵称的那种。

买了一个月以后发现都已经被平台封号处理,买到的星星也跟着消失了。

不过这种廉价服务最疯狂的地方在:失效了可以联系卖方,免费包重刷。

具体有多少人购买这种服务无从得知,不过Eldeeeb注意到他的账单编号是#57189,说明成交量绝对不在少数。

495104f37459dd53d345ccc434d69130.png

像这样的“黑市”刷星服务,最近被频频曝光,也在开发者社区成了话题热榜的常客。

4db89f5dc97f634a1b56b7433115c9af.png

大家的讨论中,有一个最奇葩的开源项目,被检测出有97%的星都是假的。

假星检测器

检测出这个奇葩项目的是另一位创业者Fraser Marlow,他偶然发现了GitHub黑市的存在。

同时他也注意到投资人越来越重视GitHub标星数,当作评估开源产品的指标了。

不过作为数据管道服务公司Dagster的增长主管,他不但没有给自己产品刷星——

反而与识别垃圾邮件的专家合作,收集数据并开发了一个假星检测器。

a143611a1cda2e89773d62fc2234c4ae.png

具体分为两种算法,简单算法只能检测出那些“一眼假”的。

比如大批账号都给相同的两个项目标星,没有贡献记录,除了头像和用户名不同其他一毛一样那种。

81dab08257daa8ee1c97832d268a80b6.gif

但对于开头提到的那种6元一星的高级账号,简单算法就无能为力了。

为此,Dagster还设计了一种更复杂的监督聚类算法。

原理也很简单,一批假账号会具有相似的特征,在可视化中可以聚集在一起。

而正常用户的特征应该相当独特,在统计上非常分散,不应该属于任何大的群体。

举个栗子来说,正常的GitHub账号不是每天都有活动记录,如果一群账号活跃的日期都重合,就表明它们很有可能是受同一个脚本控制的。

为验证算法可靠性,他们创建了一个靶子仓库,并真的去购买了刷星服务。

聚类算法在测试中表现非常好,接近100%的匹配率。

在更复杂的真实数据上,也达到了98%的精确度和85%的召回率。

3352a1ca721983921e745e06b08c18c6.png

接下来,团队在Github Archive公开数据集上综合使用两种算法测试。

一测不得了,造假最严重的okcash总标星759,简单算法只发现一个疑似假星,结合聚类算法直接蹦到97%,

由于计算成本较高,测试中只分析了2022年1月1日及之后获得的星星。

也就是说,还有很多2022年之前刷星的项目没有被揪出来。

4dd01a0d653624135a1f2c77138b6672.png

与之相比,他们检测了自己的产品Dagster和几个同行,刷星率都比较低,看来数据管道这个行业还是比较健康的。

5c0cc6ca8b2bdc7dcec89f03443ea649.png

在这之后,他们与GitHub团队分享了这些发现,并把检测器也开源了。

曝光48小时之内,GitHub和刷星供应商都行动起来,他们测试用的“靶子仓库”中的假星都消失了。

据GitHub方面回应,其实多年以来一直都在积极打击刷星行为,但仍旧频发,根本管不住。

之前就有学术研究,通过数据分析找出63872个可疑账号,但其中只有不到5%被GitHub平台自己检测出并封号。

2ba6260ea057120179d63bdf3ce4abd8.png

研究推测,刷星行业早在2018-2019年就获得了341万-437万美元的利润。

那么为什么会有人花大价钱买GitHub标星,真的能带来实际收益么?

投资人:我们就爱看星标

开源项目团队选择“刷星”的一个重要目的,就是吸引投资者的目光。

一家风险投资公司的合伙人Pratima Aiyagari 表示,做开源项目极大可能很久都赚不到钱。

既然收入情况没法拿来参考,那就要多看一看产品本身的状况了。

考察开源项目最准确的方式是查看代码,但这种方法复杂繁琐且专业性强,并没有成为投资者的首选方式。

于是投资者找出了替代方法——看星标——实际上,他们天生就会寻找快速增长的新账号。

24f8ec7b148bd9413cab271d8cd54cf0.png

除了绝对数量,风投公司Runa还专门设计了一种名为ROSS指数的指标,依据星标数年增长率对团队进行排名。

Runa的一名合伙人Konstantin Vinogradov说,ROSS指标已经成为了开源项目遵循的重要标准,排名靠前的开源项目中有三分之一都获得了融资。

不过伴随着“刷星”现象的出现,投资者对星标数的看法也开始弱化。

投资人Kevin Zhang说,星标数可能可以成为一块“敲门砖”,但不意味着投资者会因为星标数和项目团队“第二次见面”。

这也印证了学术界的看法——加州大学圣地亚哥分校助理教授Stuart Geiger表示,随着时间的推移,指标(星标数)可能会自行失效。

a62a0befbf0acefe5ff8bd8b8daeb36e.jpeg

这就涉及到了两条社会科学定律——坎贝尔定律和古德哈特定律。

坎贝尔定律说,决策当中使用的一项指标越受重视,就越容易被操纵。

好比网络购物,实物我们看不见摸不着,自然就会参考其他买家的评价,于是“刷单”现象也就应运而生了。

古德哈特定律则认为,如果一项指标被人们刻意追逐,那就不(或不再)是一个好的指标。

但在没有更好的替代指标的情况下,就必须确保数据的真实度了,就好像在考试中要不遗余力地打击作弊一样。

ef2ddf173c2f55278f4f0a6878725269.jpeg

不过,除了想吸引投资者的团队之外,还有许多个人开发者也会“刷星”。

目的和创业团队有异曲同工之处,只不过吸引的不是投资者而是HR,希望高星项目能在求职中为他们带来优势。

事实上,也的确有企业将GitHub信息作为评价求职者的指标,甚至有人凭借套壳项目就斩获了Google的offer。

132411429d51044ccdbd88920876fc7e.png
a7443d4f428dfb4bfedc16f8dae059e8.png

除了选人,在技术选型时也是同样的道理——很多人(尤其非专业人士)会倾向于使用高星项目。

e4a3d9a2e0005799388235c93a147a71.png

除了GitHub,还有综合型产品发布平台Product hunt,数据类产品平台kaggle,以及IT问答平台StackOverFlow等媒介也越来越多的受到投资人的关注。

不过如果不能建立有效的“防刷单”策略,可能最终也难逃换汤不换药的命运。

对于这种现象,有人总结是“Fake it till they make it.”——

如同“先上车后补票”一样,先假装自己已经成功,直到真的成功为止。

One More Thing

AI,特别是大模型的发展,让检测虚假账户越来越难了。

以前的造假可能只是刷刷星标和点赞,判断用户真伪的方式主要是看账户本身的特征。

但自从有了ChatGPT以后,还可以刷以假乱真而且不重样的评论。

如果一个账户命中了虚假账号的特征,但发布的回复却和真人毫无二致,该如何判断它的真伪?

参考链接:
[1]https://www.wired.com/story/github-stars-black-market-coders-cheat/
[2]https://news.ycombinator.com/item?id=37990338
[3]https://dagster.io/blog/fake-stars
[4]https://dl.acm.org/doi/10.1145/3427228.3427258

ICCV / CVPR 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
计算机视觉和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看96f109591d34f0effa6a4d8499bf3984.gif
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值