爬虫在互联网时代并不稀奇,面对海量数据,人工获取信息的效率低、时效性差,为了提升体验很多公司都会开发爬虫系统。但是,爬虫写得好,牢饭吃得早。
来自 2018 年的公开案例:
某公司 2017 年转型做互联网科技公司,主营业务是“助贷”,需要经常访问政府居住证网站,查询房产地址、房屋编码和学区房的使用情况。公司产品组经讨论后建议用爬虫自动查询相关数据。
2017年12月,CTO 安排新入职的程序员负责这个项目,要求他研发一个自动定时抓取的爬虫。
2018年1月,项目经理给程序员一个抓取数据的程序源代码,程序员开始修改。
2018年3月,爬虫上线,可以从公安局居住证系统查询到房产地址、房屋编码等对应的资料。
2018年4月27日10:43-12:00左右,居住证系统出现宕机现象,未定位到请求IP来源,怀疑是人为攻击。
2018年5月2日10:00-12:00左右,系统再次遭遇攻击,这次管理人员成功截取了IP地址并报案。
2018年5月17日晚上11点,CTO、程序员得知网警锁定服务器 IP,程序员怀疑是居住证系统加了验证码但爬虫未更新,导致爬虫被判断为攻击行为。
2018年8月,CTO、程序员被捕,后续 CTO 被判处有期徒刑三年,程序员被判处有期徒刑一年六个月。
我也曾在某金融公司开发过爬虫,帮助用户从银行、基金公司、邮箱等多个渠道爬取信用卡、基金交易记录,然后形成账单和分析数据供用户参考。近几年看了不少因为开发爬虫被判刑的案例,独自庆幸及早抽身,已离开爬虫团队数年。
201