网络爬虫的合法性讨论

摘要:随着大数据时代的到来,数据已经渗透导生活和工作的各个领域,“网络爬虫”在大数据时代是一种不可或缺的高效获取海量数据的重要工具。 爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上是不被禁止的,但是利用爬虫技术获取数据这一行为是具有违法甚至犯罪的风险的。

1.网络爬虫和相关基本概念

1.1网络爬虫的概念

网络爬虫(又称为网页蜘蛛,网络机器人)是一种按照一定的规则,自动的抓取万维网信息的程序或脚本。

1.2爬虫的产生背景

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的搜索引擎Googel,百度和Yahoo!等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

1.3网络爬虫的应用领域

搜索引擎、新闻聚合、社交应用、舆情监控、行业数据等。

1.4Robots协议

robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。
robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

1.5反爬虫技术与反反爬虫技术

爬虫技术与反爬虫技术就像猫鼠游戏,同时这个游戏中暗藏要承担法律责任的风险。常见的反爬虫机制与反反爬虫应对机制应如下:
登陆验证->应对方案1:抓包模拟登陆,伪造请求头后通过构造一系列Get和Post请求模拟浏览器的行

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值