python爬虫第二节:安全问题、Robots协议

网络爬虫引发的问题:
骚扰问题、法律问题、隐私问题


整个Internet将网络爬虫看成一个可规范的功能来看待:
通过技术:来源审查 User-Agent
通过道德:Robots协议(可以不遵守,但是要承担法律风险)

Robots协议: 
作用:告知爬虫哪些可以爬取,哪些不行。
形式:在网站根目录下放置robots.txt文件
我们可以查看如下:(*表示所有  /代表根目录)
https://www.baidu.com/robots.txt
https://www.jd.com/robots.txt
https://www.taobao.com/robots.txt
https://www.qq.com/robots.txt  
https://www.news.qq.com/robots.txt (注意QQ和QQ新闻是不同的网页)
https://www.moe.edu.cn/robots.txt  (教育部网站,无robots协议)

遵守robots协议:

但,当你网络爬虫的频率和大小,和人访问浏览器十分相似时,可以不遵循此协议。
因为Internet设计原本就是为了人去访问,Robots协议的初衷是约束爬取大量数据甚至商用牟利。


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值