爬取网站的背景调研

在爬取一个网站之前我们首先需要对目标站点的规模和结构进行一定程度的了解,这里可以通过对网站自身的robots.txt和Sitemap文件进行了解。

robots.txt文件让爬虫了解爬取该网站存在哪些限制,这里以淘宝网为例,如下所示:

里面列出了禁止的用户代理Baiduspider、Yahoo!等等

有些网站还会提供Sitemap文件用于定位网站最新的内容,不过目前很多网站都没有了,估计是防止爬虫吧!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值