来源审查:判断User-Agent进行限制 检查HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问 发布公告:Robots协议 告知所有爬虫网站的爬去策略,要求爬虫遵守 Robots协议(网咯爬虫排除标准) 作用:网站告知网络爬虫那些页面可以爬取,哪些不行 形式:在网站根目录下的robots.txt文件 Robots的使用 网络爬虫:自动或者人工识别robots.txt,再进行内容爬爬取 约束性:Robots协议是建议但是非约束性,网络爬虫可以不遵守,但是存在法律风险