[爬虫][python][入门][网页源码][百度图片][豆瓣TOP250]
Robots协议 查看爬取规则 遵守相关法律法规
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉爬虫哪些页面可以抓取,哪些页面不能抓取。
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
##...
原创
2020-04-22 20:54:55 ·
418 阅读 ·
0 评论