在开始讲解思路之前,我们首先了解下网络状态码,为什么要看这个呢?以后你会回来感谢我的,嘻嘻!
一般网络状态有以下几种:
200(成功)
服务器成功处理了请求。一般来说,这意味着服务器提供所请求的页面,如果您看到此状态,您的robots.txt文件,这意味着Googlebot的检索成功。
301(永久移动)
请求的网页已永久移动到新的位置,当服务器返回此响应(作为一个GET或HEAD请求的响应),它会自动转发请求到新的位置。你应该使用这个代码让Googlebot的知道一个网页或网站已永久移动到新位置。
302(临时移动)
服务器正在响应请求,从不同位置的网页,但请求者应继续使用原来的位置,为将来的请求。此代码是在这一个GET或HEAD请求的301相似,它会自动转发到不同的位置请求,但你不应该用它来告诉Googlebot的一个网页或网站已移动,因为Googlebot会继续抓取和索引原来的位置。
400(错误请求)
服务器不理解请求的语法。
403(禁止)
服务器拒绝请求。如果你看到在Googlebot尝试抓取您的网站的有效网页(你可以看到在网络上抓取页面在谷歌webmasters诊断下)收到此状态码时,它有可能是您的服务器或主机阻止Googlebot存取。
404(未找到)
服务器找不到请求的页面。例如,服务器返回此代码,如果请求是在服务器上的页面不存在。如果没有您网站上的robots.txt文件,并在webmasters“诊断”标签的robots.txt页上看到此状态,这是正确的状态。然而,如果你有一个robots.txt文件,你会看到这种状态,那么您的robots.txt文件可能被命名为不正确或在错误的位置。它应该是在顶级域,名为robots.txt的。如果你看到的网址,Googlebot尝试抓取(诊断“标签的HTTP错误”页上)此状态, 则表示Googlebot可能从另一页(可能是旧链接或输入有误)的无效链接。
500(内部服务器错误)
服务器遇到了一个错误,并不能满足要求。
503(服务不可用)
服务器目前无法使用(因为它是重载维修或向下),一般来说,这是一个临时的状态。
重点来了,跟上思路
进入正题,我们今天爬取的是网易云音乐热歌榜的歌曲,首先我们要知道这个网址,如下图所示:
网址是这个: