爬虫玩得好,牢饭吃到饱?这3条底线千万不能碰!

e2da73ceefa273537d387f7949e059bd.gif

导读:合法合规、谨慎小心地应用爬虫技术。

作者:郭斌 刘思聪 於志文

来源:大数据DT(ID:hzdashuju)

a767f7c4ed64a1f89951cfcbfe281819.jpeg

数据爬取技术一向是数据公司获取数据的高效途径之一,但严格意义上爬取行为本身并不是完全合法合规的,按我国目前的法律法规及司法判例,爬虫技术可能会触犯以下几个维度的法律要求(仅列出相对重点的法律维度)。

01 反不正当竞争法维度

在未征得被爬取方授权的情况下,爬取数据的行为可能会违反Robots协议。Robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。2012年11月1日,十二家企业共同发起了《互联网搜索引擎服务自律公约》,公约要求各签约方遵守Robots协议。

在司法实践中,即使爬取方不属于上述12家公司的范围内,Robots协议也已经被认定为互联网行业搜索领域内公认的商业道德:北京市第一中级人民法院在某互联网安全公司不正当竞争案件中,将行业内公认的Robots协议认定为互联网行业搜索领域公认的商业道德。

法院在判决中指出:

在被告推出搜索引擎伊始,其网站亦刊载了Robots协议的内容和设置方法,说明包括被告在内的整个互联网行业对于Robots协议都是认可和遵守的。其应当被认定为行业内的通行规则,应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德。

因此,爬取方违反Robots协议的行为可能会被认定为违反《反不正当竞争法》第2条,即违反诚实信用原则以及商业道德。

虽然网络上公开的信息较难构成商业秘密,但由于网络上的某些信息可以通过采取技术措施使得仅有特定的用户可以接触,因此网络上的信息仍有可能具备商业秘密要求的秘密性和保密性,构成商业秘密的可能。

如果爬虫控制者在抓取信息的过程中有意地规避了网站经营者设置的保护措施,接触、保存甚至披露了一般用户原本无法访问的信息,而该等信息又构成商业秘密,则爬虫控制者的该等行为存在侵犯他人商业秘密的可能,进而可能会违反《反不正当竞争法》第9条。

同时,因为爬虫会对被爬取方的网络系统等造成妨碍,所以此类行为可能会违反《反不正当竞争法》第12条。

9eacf0b8a7778f9e4e70107b586ef3ac.jpeg

02 著作权维度

无论是网络上的文章、图片、用户评论,还是网站自身的数据库,都有可能在具备独创性的情况下构成著作权法保护的作品。对于该等信息的抓取和使用有可能会构成对著作权的侵犯,特别是复制权和网络信息传播权。因为抓取数据的行为本质上是对数据的复制,因此该等行为有可能侵犯著作权人的复制权。

同时就数据提取和使用行为而言,如果爬虫控制者抓取信息后,在自己的网站上公开传播抓取到的信息,则还有可能进一步侵犯信息网络传播权。

例如,马某某等诉某网络科技公司著作权侵权纠纷案。

  • 案情事实

被告某网络科技公司利用类似搜索引擎的计算机爬虫技术进行法语词条的收集与翻译释文的搜索,未支付相应报酬而大量使用原告享有著作权的《当代法汉科技词典》中的内容,马某某将该网络科技公司以侵犯著作权为由诉至法院。

  • 判决结果

根据法律规定,除合理使用外,使用他人作品应当经著作权人同意,并支付相应报酬。被告称其通过爬虫技术收集了词汇词条及中文释义,该技术是被告收集并形成其网络词典词库的一种手段,而非在使用《法语助手》时,通过搜索链接直接指向其他目标网站,被告应该对其收集并使用的词汇及中文释义合法性负有较高的审核注意义务。

因此,被告制作的法语翻译软件内容,部分抄袭原告《当代法汉科技词典》的释义内容,侵犯了原告等人的著作权,应依法承担停止侵害、赔礼道歉、赔偿损失的民事责任。

03 《刑法》及《网络安全法》维度

从技术角度分析,爬虫可能会导致目标网站负荷过大,进而引起网站无法访问甚至瘫痪等不良后果,爬取方可能会违反《网络安全法》中关于网络运行安全方面的规定。但如果你还涉及侵入的情况,就可能会触犯《刑法》第285、286条的规定。

例如在某案例中,王某利用远程登录的方法,通过一个攻击指令侵入目标公司的计算机信息系统,将系统中公司员工的邮箱、通讯录导出来,再修改相应的密码,从而可以随意进入员工的邮箱,最后被判处非法获取计算机信息系统数据罪。

从爬取的内容角度分析,如果爬取的内容是个人信息,那么可能违反《网络安全法》关于收集个人信息合规性的要求,甚至可能触犯《刑法》中的侵犯公民个人信息罪。

086afabe7d87af0605a7e1fcc636fe6d.jpeg

小结

综上,数据爬取行为不但容易引起监管部门的重点关注,也易受到来自竞争对手的诉讼,建议企业在进行数据爬取行为时注意以下要点内容。

  1. 尽量避免爬取构成直接竞争关系的企业的平台数据,避免竞争对手依据《反不正当竞争法》提起诉讼的风险。

  2. 尽量爬取明确公开的数据,遵守Robots协议等网站明确公开的协议,避免爬取平台禁止爬取的数据。

  3. 根据《数据安全管理办法(征求意见稿)》第16条的要求,数据爬取收集流量不得超过网站日均流量的三分之一,避免造成目标网站崩溃、无法正常运营等情况。

  4. 对于目标网站已经明确采取技术手段阻止爬虫访问的,公司不应侵入、破坏其防护措施。

  5. 如目标网站明确发出停止数据爬取的相关通知说明,则应暂停数据爬取行为,及时采取对策。

本文摘编自《数据合规:入门、实战与进阶》(ISBN:978-7-111-70536-9),经出版方授权发布。

af30caa15fce8b25dbba255bc46f41c6.jpeg

延伸阅读《数据合规:入门、实战与进阶》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:多年一线治理经验的系统总结!跟随主人公不断成长,快速掌握多元场景中的实务处理方案!企业数据合规治理的实用工作手册!数据合规专业人士成长晋阶的秘笈!

RECOMMEND

推荐阅读

3bfedf5f6753e5fef50210608949f822.png

01
《Python网络爬虫技术与实践》

7f8a57ac37979cfdbc46807fa47bf8ce.jpeg

推荐理由

本书是一本系统、全面地介绍Python网络爬虫的实战宝典。作者融合自己丰富的工程实践经验,紧密结合演示应用案例,内容覆盖了几乎所有网络爬虫涉及的核心技术。在内容编排上,一步步地剖析算法背后的概念与原理,提供大量简洁的代码实现,助你从零基础开始编程实现深度学习算法。

8c5af866f2e5fa8631f759cba02c56c8.gif

更多精彩回顾

资讯 |《Java核心技术》基于Java 17全面升级!

干货 |再见了Java8,Java17:我要取代你

资讯 | Java核心技术大会2022 · 重磅发布

书单 |今天,Java27岁了!

新书 | 红蓝攻防:构建实战化网络安全防御体系

书讯 |7月书讯 | 12本新书如期而至!

每周赠书 | 第110期:成为架构师的路上,必看的经典好书

上新 | 运维数据治理,构筑智能运维的基石

书评 | 运营其实很重要

d82311c5c27aabdeb513321553e754af.gif

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值