作者简介
专业领域:民商事诉讼争议解决;信息网络犯罪刑事辩护、控告、风险防控与合规
邓琳律师具有法学、计算机科学复合专业背景;担任过多家中大型上市科技集团的高级开发、技术管理人员,同时在法律+科技领域有过创业经历,专注于数字经济与网络领域的法律服务。
一、概述
目前,数据已成为最有价值的资源之一,任何人工智能产品的研发都离不开利用海量数据进行训练。而网络爬虫,作为高效获取和整理数据的关键工具,具有巨大的商业价值:
1. 数据服务:为企业提供定制化的数据服务,如行业报告、市场分析报告等。通过爬虫抓取相关数据,进行数据清洗、分析和可视化处理,最终为企业提供有价值的信息。
2. 广告推广:通过爬虫技术,分析目标用户的浏览习惯和兴趣偏好,实现精准的广告投放。这不仅能够提高广告转化率,还能为广告主节省大量推广成本。
3. 搜索引擎优化:利用爬虫技术,优化网站的搜索引擎排名,提高网站的曝光率和流量。这有助于提升企业的品牌知名度和销售额。
“爬虫”本身作为一项网络信息搜索技术,具有技术中立性,并未被我国现行法律所明令禁止。但是在司法实务中,爬虫是最容易触碰法律底线的技术。企业或者技术人员在运用爬虫技术实现商业需求时,一旦把握不好分寸,轻则可能涉及民事侵权,重则可能触及刑事犯罪,是妥妥的面向监狱编程。
二、网络爬虫的高危场景
在使用网络爬虫技术的过程中,从技术本身的使用行为到抓取数据后的使用、传播行为,可能涉及非法侵入计算机信息系统罪、非法获取计算机信息系统数据、侵犯公民个人信息罪、诈骗罪、侵犯著作权罪、敲诈勒索罪等。
(一)超越权限或者破解反爬虫机制,强行爬取数据
1,表现形式
超越权限一般是指利用漏洞或者突破系统安全保护措施获取数据的行为,这种行为一般是为了爬取非公开的数据,明显属于“侵入”行为,其本质上来说已经是属于黑客攻击的行为,显然应当受到刑事追诉。
另一种是公开的数据,但是数据提供者为了减少爬虫对系统的影响会采取各种反爬虫技术措施为爬虫设置障碍或者增加爬虫技术的成本,爬虫脚本开发者通过技术手段绕开了反爬虫机制获得数据,虽然没有突破安全保护机制或者利用漏洞,但是司法实践中依然会被认定为“侵入”行为。
Robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。信息提供者可以在自己的站点设置Robots协议,以告知爬虫控制者哪些信息是提供者不希望被爬取的,司法实践中,也会参考目标网站根目录的Robots协议来固定证据。
2,涉及罪名
a)违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统,构成非法侵入计算机信息系统罪。
比如:爬取全国各地车管所公告的车牌放号信息,然后采用多线程提交、批量刷单、验证码自动识别等方式,突破系统安全保护措施,将爬取的车牌号提交至“交通安全服务管理平台”车辆报废查询系统,进行对比,并根据反馈情况自动记录未注册车牌号,建立全国未注册车牌号数据库。
该罪名的构成不要求有违法所得,即便只是因为好奇“黑进去”看看,只要被认定有“侵入”行为,便构成该罪。
b)非法获取计算机信息系统数据罪
如果使用网络爬虫技术,非法侵入国家事务、国防建设、尖端科学技术领域之外的计算机信息系统,获取该计算机信息系统中存储、处理或者传输的非公开数据或者未授权数据,情节严重的,则构成非法获取计算机信息系统数据罪。
比如,在上海某有限公司、侯某等非法获取计算机信息系统数据罪一案中,侯某指使被告人郭某破解抖音的防抓取措施,使用“tt_spider”文件实施视频数据抓取行为,在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制。法院认为“被告单位上海某公司违反国家规定,采用技术手段获取计算机信息系统中存储的数据,情节严重,其行为已构成非法获取计算机信息系统数据罪。
(二)频繁爬取数据,导致被爬取的网站系统无法正常运行
使用爬虫技术,高频爬取某目标网站,忽视了目标网站的负载能力,如果请求频率过高,接近DDoS攻击的频率,一旦造成目标服务器瘫痪,造成严重后果的将承担刑事责任,涉及罪名破坏计算机信息系统罪。
比如:张某等人利用改良后的“快鸽信贷系统"内的“网络爬虫"功能在深圳市居住证系统查询房屋信息。2018年5月2日10时至5月2日12时许两小时内,该软件对深圳市居住证系统查询访问量为每秒183次,共计查询信息1510140条次并将查询的信息以阿某云网络云盘的形式保存,深圳市公安局居住证服务平台服务器遭受了该爬虫软件的自动化程序攻击,在该时段内造成深圳市居住证系统服务器阻塞,无法正常运行,深圳市公安局居住证服务平台无法正常对外提供服务,其他用户无法正常使用平台业务,极大地影响了该居住证系统使用方深圳市公安局人口管理处的日常运作。
被告人杨某、张某违反国家规定,对计算机信息系统功能进行干扰,造成为5万以上用户提供服务的计算机信息系统不能正常运行累计1小时以上,后果特别严重,其行为已构成破坏计算机信息系统罪。
(三)出售爬取到的公民个人信息
《个人信息保护法》第十条规定 任何组织、个人不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息;不得从事危害国家安全、公共利益的个人信息处理活动。
很多企业可能认为在网上爬取到的公开数据,然后加工后进行出售给电商平台或者用于向目标群体推广业务,是合法的。其实不然,非法获取到公民个人信息后出售的行为当然是违法的,情节严重的构成犯罪,但未经过他人允许抓取公开的个人信息进行出售的,也同样是违法行为。
那么哪些数据属于公民个人信息呢,根据《办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第一条之规定,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。
比如:彭某、吕某、周某侵犯公民个人信息罪一案中,被告人彭某辩解称涉案信息来源是在网上抓取的公开信息,并非非法获取的。而法院认为“彭某无论是从公司窃取还是自己加工获取,未征得他人同意收集信息,均系非法手段,不影响本罪的构成。”
因此,如果爬虫控制者在未经他人同意或者超出权限许可范围的情况下大量抓取公民个人信息,其手段即具有非法性,可能构成侵犯公民个人信息罪。
(四)为诈骗、敲诈勒索等犯罪活动提供数据支持
部分企业如果明知客户的数据需求是用于进行犯罪活动,而为其提供爬虫技术以获得相应的数据来开展犯罪业务,则根据犯罪业务以共犯论处。
其中,对“明知”的判断应当结合行为人的认知能力、既往经历、行为次数和手段、与同案人、被害人的关系、获利情况、是否故意规避查处等主客观因素综合分析认定。
比如有大数据服务公司成为了为“套路贷”犯罪分子提供“服务”的职业化群体,其爬取的数据维度较为细致,爬虫技术被应用在“套路贷”的个人信息搜集和暴力催收上,应认定为敲诈勒索罪的共犯。
再比如叶某、孙某诈骗案中,叶某雇佣他人,为谋取非法利益,通过购买爬虫软件获取淘宝网新开店店家信息,冒充淘宝客服人员向店家发送店铺未激活、交易关闭等虚假信息,以帮助店家解决问题为由诱骗被害人同意其进行远程协助并提供支付宝账户及密码,后其通过电脑远程操作的方式使用被害人支付宝为视频账户充值。法院认为“叶某以非法占有为目的,利用电信网络对不特定多数人实施诈骗,骗取财物数额特别巨大,其行为已构成诈骗罪。
(五)通过爬取有他人著作权的网络作品而获利
利用爬虫等网络技术,采集、聚合、链接其他网站的影视、小说等作品,免费向用户提供,通常不构成犯罪。以营利为目的(此处包括刊登广告推广获取广告费的方式),达到一定的数额则构成犯罪。在网络上提供作品一般包括提供作品链接或者直接提供作品内容两种形式。
未经权利人许可,直接将他人作品内容存储并显示在自己网站的,一般都属于侵权行为。避开或者故意破坏他人对作品的保护措施,通过加框链接(链接目标网页的特定部分内容(如文件或视频播放器),通过技术手段将这部分内容嵌入设链网站的网页或客户端应用中。用户在查看时,会误以为内容是由自己网站提供的,而实际上这些内容来源于其他网站),如未提供或隐藏被链内容源网址链接(URL)的,一般认定为侵权行为。这些行为一旦达到一定的营利数额将构成侵犯著作权罪。
比如在段某某侵犯著作权案中,被告人段某某未经著作权人许可,利用视频搜索爬虫技术,针对乐视、土豆等各大知名视频网站的影视作品设置加框链接,收取用户点击、浏览影视作品后产生的广告费,被法院判决构成侵犯著作权罪。
在金某某、潘某侵犯著作权案中,被告人潘某负责编写爬虫软件从互联网上抓取小说数据储存至其租用的云服务器内,供用户阅读。法院认为“被告人金某某、潘某结伙,以营利为目的,未经某公司许可,复制某公司享有信息网络传播权的文字作品,并通过信息网络向公众传播,情节严重,其行为均已构成侵犯著作权罪。
技术本身具有中立价值,在使用技术时一定要守住红线,做好技术合规、数据合规、个人信息保护等风险防控,避免因小失大。