爬虫技术的伦理研讨

爬虫技术的伦理研讨

本文根据几篇关于爬虫技术的报道针对以下三个问题进行说明

1. 爬虫技术涉及到伦理问题有哪些?

2. 作为一个IT技术人员,应怎么看待爬虫技术的使用?

3. 提出自己对爬虫技术在伦理规则方面发展的几点看法。

前两天还有人问我有没有做过python爬虫,说实话,虽然这个技术近几年很火热,但自身并没有过多的了解。
该文只简单阐述爬虫技术的原理,让小白也能看懂爬虫技术到底是什么,以及该项技术所产生的一些伦理问题,值得行业内人员去思考。
首先介绍这项技术,**网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。**最初它的出现就是用来解决搜索引擎存在的局限性,使得用户在网页中精确搜索到自己需要的内容以及解决搜索引擎服务器资源与网络数据资源不匹配等问题。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定条件时停止。网络爬虫按照系统结构和实现技术,大致可以分为通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
同样的,一项技术总会在发展的过程中产生各种各样的问题,从技术上看网络爬虫所面临的是效率问题即Web 信息的巨大容量使得爬虫在给定时间内只能下载少量网页。 Lawrence 和 Giles 的研究表明没有哪个搜索引擎能够索引超出 16%的Internet 上 Web 页面,即使能够提取全部页面,也没有足够的空间来存储 。爬虫需要在单位时间内尽可能多的获取高质量页面,是它面临的难题之一。为了提高爬行速度,网络通常会采取并行爬行的工作方式,随之引入了新的问题:重复性(并行运行的爬虫或爬行线程同时运行时增加了重复页面)、质量问题(并行运行时,每个爬虫或爬行线程只能获取部分页面,导致页面质量下降)、通信带宽代价(并行运行时,各个爬虫或爬行线程之间不可避免要进行一些通信)。
而从公共社会的层面上看,爬虫技术的应用存在着诸多伦理问题。例如,51信用卡事件,其委托外包催收的公司利用爬虫不正当窃取用户数据、滥用用户信息进行暴利催收。并且有多家大数据公司、征信公司和拥有此类业务的互联网金融公司也做着相同的事情。再如,2019年9月,天翼征信、杭州存信数据、新颜科技、魔蝎科技等多家大数据公司被查,原因就是利用爬虫技术过度收集、非法窃取和贩卖个人数据信息等。
中消协发布的《APP个人信息泄露情况调查报告》显示,超八成受访者曾遭遇个人信息泄露,主要原因就是APP经营者未经授权收集个人信息和故意泄露信息。而另外一份报告显示,被评测的100款APP中,竟然有多达91款的APP存在过度收集用户个人信息的问题,典型方式包括隐蔽收集用户信息、误导用户同意,强制授权、过度索权,超出用户心理预期获取个人信息,账号注销困难等。
更让人担忧的是,一些细微的隐私信息一旦泄露,造成的危害,可不仅仅是多了骚扰电话、推销短信和诈骗电话那么简单。如暴力催收、套路贷、砍头息等也大多与数据隐私泄露有关。因此,个人信息的泄露不仅仅会危害个人人身财产安全,甚至会危害公共安全。
即使数据来源合理合规,近年来,在大数据画像的使用过程中,也出现了一些“伦理问题”,比如“大数据杀熟”“同房不同价”“看人发红包”等等,都备受争议。本是用来精准服务你的方法,被用来精准地“欺负”你。
由于金融机构和互金平台获得的收益远高于广告行业,因此,为其服务的大数据公司也收入更高,这使得这类数据越来越贵。一些中小型银行和金融机构,特别是一些互联网金融公司,自身并没有积累足够的用户数据,因此只能通过第三方数据公司提供征信和风控服务,而这些数据公司的数据来源是黑是白,他们也并不想知道。
前面所说到的是企业对广大用户利益的直接影响,威胁着我们的财产生命安全。除此之外,还存在着企业与企业之间通过爬虫技术获得可能带来商业利益的信息从而构成不正当竞争。比如,蜂窝旅游网通过机器人从携程等竞争对手那里抄袭餐饮酒店评价,制造流量很大的假象,既给用户看、商家看,更要给投资人看,获取不同轮次的投资以便上市。以及市面上大的互联网公司都会推出自己的刷票软件,目的是为了分享12306网站的‘流量红利’。不仅给网站服务器造成巨大压力,也扰乱了正常的订票秩序,由此带来的购票难是铁路部门一直头疼的问题。像这样利用“爬虫”技术从其他平台恶意抓取数据的公司还有很多很多。最终受益者是不怀好意的人,而广大用户都会间接受到利益的损失。
无论是大数据公司有意而为之,还是他们认为技术本是中立的,很多情况下,爬取得数据并不受控制;或是技术人员也不知,什么样的数据可以获取,什么样的不能,因为技术本身还在不断发展的过程中,为了达到科技创新的目的,如果国家政策过多的限制,那么科技产业并不会得到很好的发展,这一系列问题,值得所有人的深思,如何在技术与人类安全之间找到一个平衡点,如何用法律去制约,制约的程度需要多大,这都是爬虫技术甚至说新兴技术所隐藏的伦理问题。
作为一个IT技术人员,首先,要知道在运用这项技术的时候,不能做违法违规的事,例如,已明确被告知,不能随意爬取得信息,还要为了谋取私利而为之,必然是违背职业道德操守的行为甚至触犯到了法律。而说到具体制约规范,我国并没有像欧洲那样实施“史上最严格”的数据保护条例,因为这样会阻碍创新的风险,在工业时代,作为核心能源的石油因其背后的巨大利益,引发了战争。如果大数据真的是“未来的石油”,巨大的利益面前,仅仅靠法律和规则的禁止,恐怕很难解决全部问题。“只要市场对此的需求存在,即使监管再严格,也总会有人因为利益去铤而走险。”北京大学市场与网络经济研究中心的陈永伟研究员认为,数据隐私归根到底要从技术上入手,技术带来的新问题最终还是需要用技术来解决。
“比如获得图灵奖的、清华大学姚期智教授的‘多方安全计算(MPC)’,通过技术手段实现既保护用户的数据隐私,又能够获得有价值的数据挖掘。”陈永伟说。
MPC (Secure Multi-Party Computation),是一个名为“多方安全计算”的理论框架,基于此,可以实现数据使用权、所有权的分离,数据所有方可以保有数据,但是又不影响数据需求方提供服务。简单地说,就是基于加密的数据进行计算。
吴沈括说:“事实上,无论是商业模式还是科技进步,既是个人信息的加害者,也是个人信息的保护者。因此,我们可以通过鼓励企业创新,积极开拓区块链、多方安全计算等新的技术架构,达成个人信息保护与数据利用的动态平衡。”。
实际上,针对数据隐私的立法在全球已经形成潮流,日本、韩国、印度、巴西、俄罗斯等国都设立了类似于欧洲GDPR的隐私保护法,美国各州也已经陆续在落地隐私保护的法规,至于中国,需不需要也给企业也套上一道“紧箍咒”?
实际上,关于信息安全的规范等一系列与数据隐私安全有关的法律法规推出并在广泛征求意见。为切实保障数据的隐私安全,收集使用相关数据时需要遵循合法、正当、必要的原则。
吴沈括说:“一是收集的数据必须是合法的,要公示收集规则,经用户同意;二是收集数据应遵守道德伦理底线,确保使用数据行为的正当性,不应强迫用户授权,或者以默认授权、捆绑服务、强制停止使用等不正当手段变相诱导、胁迫用户提供相关数据;三是收集必要的、最小化的数据。”。
吴映京还表示,数据利用的“度”一定是需要政府、企业和民众共同去摸索实践的,因为目前并不能说哪个制度就一定是最优的,关键在于明确好社会、企业和用户在隐私保护中的责任,平衡好三者之间的利益。对于数据“发掘”过程中可能带来的问题保持动态的态度和审慎的精神,但是不要制造非此即彼的对立情绪,而是应该以制度、教育甚至进一步的科技发展积极地解决这些问题。
而我也认为,爬虫技术要长远的发展下去,解决以上出现的道德伦理问题是刻不容缓的事情,要从多个角度去切入,无论是从技术人员自身还是管理者,以至于整个企业都应加以重视。对于技术人员的来说,可以通过反爬虫技术遏制利用爬虫技术进行的违法犯罪活动,并且不应有利用此技术谋取私利做越界,违反道德伦理的事情。
中国人民大学法学院教授刘俊海表示:“一个技术如何使用,责任主体都应扪心自问,这是否侵犯个人隐私,是否破坏言论自由,是否损害公共利益,是否损害其他数据财产拥有者的财产所有权,是否涉及不正当竞争。”
  有业内人士表示,虽然网络安全法对非法获取个人信息等相关行为进行了规定,但对于爬取公开信息行为并未予以规定。相关部门应进一步查漏补缺,尽快缩小新技术应用的法律模糊地带。而目前国内还没有全面的规定,要从根源上解决这类问题,还是要从立法层面入手。
  专家认为,未经对方允许从其他平台抓取数据并谋取商业利益的一般属于不正当竞争行为,由工商部门负责监管。但是因为这类行为通常比较隐蔽,工商部门一般需要有人举报并提供相应证据或线索后启动调查,因此需要借助技术手段更有效地进行打击。
  所以网络运营者应当诚信经营、遵循合法、正当、必要的原则,尽到网络运营者的管理义务。第三方应用开发者在收集、使用个人数据信息时,应当遵循诚实信用的原则及公认的商业道德。
  最后,作为普通用户,我们同样不能因为小恩小惠,而把自己的信息随意透漏给一些平台,让不法分子有可乘之机。
  如果从各个方面进行改善,无论是现在的爬虫技术,还是将来出现的新技术,都能走得更好更远。

转载:

https://www.huxiu.com/article/324162.html
https://www.sohu.com/a/336165079_114988
http://www.xinhuanet.com/mrdx/2018-11/02/c_137576140.htm
https://baijiahao.baidu.com/s?id=1653174048544025196%ED%94%B4=spider&for=pc
https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fromtitle=%E7%88%AC%E8%99%AB&fromid=22046949&fr=aladdin

  • 12
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

醪糟小丸子

小小帮助,不足挂齿

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值