1,HTTP常用状态码:
2,截包工具:
爬虫是模拟浏览器的事情,那么在开发爬虫之前,最好还是按照浏览器走一遍,看一看都是发送些什么请求。
工具:Wireshark
例如新浪微博:
截包内容如下:
这就是要封装的内容,而自己开发的爬虫也同时需要封装这些信息,才能完成模拟访问。
1,HTTP常用状态码:
2,截包工具:
爬虫是模拟浏览器的事情,那么在开发爬虫之前,最好还是按照浏览器走一遍,看一看都是发送些什么请求。
工具:Wireshark
例如新浪微博:
截包内容如下:
这就是要封装的内容,而自己开发的爬虫也同时需要封装这些信息,才能完成模拟访问。