WARFRAME中文wiki(灰机wiki)遭到了大量来路不明爬虫骚扰,
由于爬虫已经严重影响了其他托管站点的用户和访问者平等访问、使用灰机平台的权利,我们只能对Warframe站点进行暂时性隔离并限制访问
隔离期间我们会积极分析日志,加强对非法爬虫、QQbot的反制措施,并收集必要的证据,保留对滥用wiki开放机制,抄袭剽窃wiki内容者采取进一步措施的可能性。
隔离治疗期间玩家和用户可以使用狗头人APP进行访问
WIKI编辑者请加群414922009获得登陆权限
warframe站点之外的子站点不受隔离影响
对给各位带来的不便深表歉意!
隔离取消时间另行通知。
关于为什么要隔离
我知道有的人不理解为什么要隔离,可能会认为“不就是爬虫吗”,“爬虫是正常的分享行为”
我这里集中做一次说明
1.这里的异常爬虫不是搜索引擎的爬虫,而是以恶意剽窃、盗取wiki劳动成果为目的的网页爬虫
重要的事情再说一遍,异常爬虫不是搜索引擎爬虫(Spider),正常的爬虫会声明自己的ua,如果有问题很好屏蔽,而异常爬虫,会把自己ua伪装成正常的浏览器,甚至是搜索引擎爬虫,来迷惑服务器,从而达到浑水摸鱼的目的
首先,这种爬虫是非必须的,因为wiki已经是公开、免费、没有任何附加条件共大家浏览的了,爬取只有一个目的,就是转移内容到别有用心者的app、软件、qqbot上,至于为什么,仁者见仁智者见智。
其次,这种爬虫是非必要的,因为灰机和其他MediaWiki一样提供了开放的api,只不过好多人弱智到不愿意请求高效率的api,蠢到去费劲爬html,害人害己。对此不予置评。
最后,还有一种爬虫是伪装成爬虫的恶意攻击脚本,我会在下面介绍。
为什么要物理隔离,别的方法不好吗?
我前面说过,由于异常爬虫的特征和行为很隐蔽,相当于是疑难杂症,从表征上我并不知是哪个站点的问题导致的,所以采用隔离测试是最行之有效的办法,假设我隔离了站点A,病状消失了,说明问题出在站点A上,然后才好对症下药,分析站点A的访问日志,否则灰机全平台几百个站点,日访问超过百万的有好几个,分析起来没有抓手,效率会很低。也得多亏了wf这边的异常爬虫丧心病狂到离谱,到一眼就能看出来是wf的问题(下面我会说),所以第一个隔离就中了,省了我很多事。
这个就好比“窒息疗法”,异常爬虫大部分是以抄袭偷窃内容为目的,比如qqbot、攻略app,他是需要在表面维系一个“内容都是我做的”这样子一个假象,一旦我把wiki隔离了,他们的内容来源就断了,马上就会现出原形。所以隔离非常有利于我们甄别出,哪些人才是小偷。
有个故事叫前狼假寐,这一次我故意隔离一下,就像我之前被DDOS的时候故意不马上抢救一样,示弱了之后,针对你的人就会认为你死了,马上开始上蹿下跳,wf隔离不到两天,各种起义军就出现了,号召去某wiki另开炉灶的帖子我看到了好几个,你说是不是很好笑?就这智商,还要警察干啥,自己就招了???
2.关于爬虫是否正常
下图是2月1日的网站二级域名流量统计(不算CDN)
可以看到wf一个站点的出站流量是76.57G,其他所有站点加到一起没到20个G。
可以确定的是,wf的访问人数肯定没有ff14多。
某些人管这个叫正常?正常的定义是??
wf的流量消耗和访问次数是ff14的9倍?比全灰机其他站点加起来都多??你管这个叫正常吗?
我们再来看结果
2月1日,仅wf一个站点就出现了17000+次50x(服务器不堪重负),全平台出现了十几万次,严重干扰了编辑者的体验(差不多有小一万人遇到了50x,注意,只有编辑者才会遇到50x,匿名访问的是缓存,一般不会出现50x)。
所以我是应了广大编辑者的要求彻查服务器和异常爬虫的,这不是什么扯虎皮做大旗,也不是挟天子以令诸侯。
我为了那10000人不遇到50x隔离了wf站点,请问我有什么不对的地方吗?
有疑问的欢迎加入各种编辑群了解真相,而不是人云亦云被带节奏。
2月6日,隔离后,全平台一共出现了不到500次50x。
基本上所有编辑者都得利了,所以某些人说的没错,我的确是在“利益驱使下隔离了wf的wiki”,只不过这个“利益”是所有编辑者的利益,而不是某些不劳而获的傻逼蛆虫的利益。
下面是新鲜出炉的异常报告
2021年2月3日异常分析报告
;异常ip TOP20 (欢迎对号入座)
IP
异常值
UA
归属地信息
111.192.119.237
72348
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36
中国 北京 北京市 联通
123.113.206.214
38393
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36
中国 北京 北京市 联通
180.125.61.143
9427
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56
中国 江苏省 淮安市 电信
183.129.170.114
8508
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36
中国 浙江省 杭州市 电信
27.184.3.85
8035
Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0
中国 河北省 石家庄市 电信
114.216.89.163
7773
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.146 Safari/537.36
中国 江苏省 苏州市 电信
124.217.188.166
7692
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36
美国 密苏里
58.62.190.140
7681
Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400
中国 广东省 广州市 电信
112.23.63.34
7673
Mozilla/5.0 (Linux; U; Android 8.1.0; zh-CN; 16th Plus Build/OPM1.171019.026) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.108 Quark/4.3.3.145 Mobile Safari/537.36
中国 江苏省 淮安市 移动
123.186.215.151
6964
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36
中国 辽宁省 丹东市 电信
116.113.95.197
6937
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0
中国 内蒙古 呼和浩特市 联通
117.92.247.122
6898
Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36
中国 江苏省 连云港市 电信
116.116.250.49
6892
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36
中国 内蒙古 兴安盟 联通
183.1.66.21
6800
Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400
中国 广东省 韶关市 电信
43.228.38.242
6746
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36
中国 北京 北京市 皓宽网络
59.33.106.28
6683
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36
中国 广东省 中山市 电信
112.0.222.136
6266
Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400
中国 江苏省 连云港市 移动
42.180.205.150
6179
Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400
中国 辽宁省 阜新市 联通
144.255.144.203
5992
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400
中国 山东省 临沂市 电信
117.182.231.222
5900
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36
中国 广西 柳州市 移动
由于完整报告太长,这里就放一个简单陈列一下,解释下什么叫“异常”
首先就是ua,可以看到,全部是伪装成浏览器的,根本不是什么所谓的搜索引擎爬虫,再说一遍~
111.192.119.237这个ip在3个小时内发起了3665次有效请求,平均3.4596069868995634秒请求一次,下面是他的请求间隔分布
可以清楚的看到大部分请求间隔是0秒。
3.关于灰机是否渣服务器
有些没脑子的人肯定会说,为什么服务器扛不住?是不是没钱升级配置,不好意思不劳您费心,50x的元凶在于MediaWiki软件的耦合性和系统鲁棒性太差,服务器性能都是2倍以上冗余的而且有弹性伸缩。
为什么会频繁50x是因为某些“异常”的爬虫根本就不是以访问资源为目的,而就是为了搞垮服务器造成资源枯竭,这方面的证据我们已经分析出来了,跟着被DDOS的证据会一并交给110处理。请广大群众拭目以待??
有人会说,为什么没看见fandom或者别的MediaWiki平台出现大规模50x?
我会告诉你,即使是遭遇了这么明显的异常,灰机也没有出现大规模50x,在爬虫最最猖獗的时候,整个平台的错误率(30x、40x、50x加在一起)在0.5%以内,为什么?因为我们有缓存,大部分的匿名访问者是不会受到影响的。
但,编辑者是没有缓存的,换言之,在服务器资源被非法占用时,最先被挤出服务器序列的是编辑者。
被恶意爬虫伤害和恶心到的,永远是那1%的编辑者,嗯,就是辛辛苦苦,无私奉献的内容贡献者。
而他们,才是我行动和决策的第一优先级,所以某些人是完全不用酸的,更不要偷换概念,隔离warframe是为了保障整个灰机编辑者的顺畅体验,plain and simple!
4.关于是否推广app
隔离了wf是为了不影响其他站点的正常编辑和访问,那么必然导致很多人看不了wf wiki,app是一个特殊环境下的直达通道,在隔离期间可以给有需要的人提供正常的访问服务,同时还能依靠强有力的甄别让爬虫混不进来。
所以,在隔离期间我给房子留了个紧急通道,是我的错咯?我不该给紧急通道做标识?你们平时都是走烟囱的对吗?Santa?
逻 辑 感 人 呐。
有句话说得好,退潮的时候才知道谁在裸泳——
这个时候谁蹦跶的最欢,不停的上蹿下跳,大概率说明他正是利益攸关者吧
爬虫进不来了,抄袭狗抄不动了,于是开始丧心病狂攻击抹黑灰机和狗头人app了,多余的就不需要我解释了吧?
正告某些无聊的人
关于某些无聊的人,在过去一年里丧心病狂的针对性举报,狗头人现通报如下:
关于前往市场监督管理局举报狗头人app违法新广告法一事:我司否认一切违法指控,现在已经过去了9个月,市场监督管理局依然没有做出违法判决,还在努力研究条款中。
关于前往税务局举报我司偷税漏税一事:我司在税务部门指导下完成了一次自查,补交了打赏给各站点机长加邮费3000元人民币的税金约600元,除此之外无任何被认为违法的行为。
关于2020年8月12日的DDOS攻击行为:我司已经报案并由北京公安受理,目前案件侦破中,
另2021年2月1日、2021年1月20日、2020年12月28日,2020年12月1日四次DDOS攻击的证据已经同样提交给了公安部门。
欢迎各位持续关注案件的进展。
最后,我就是喜欢某些事儿逼看我不爽,又拿我无可奈何的样子
哈 哈 哈 哈