简单解释一下:有些网站需要登录才能浏览里面的页面,但搜索引擎的爬虫不需要登录也可以访问,所以你只要简单设置一下浏览器,让这个网站以为你就是那只搜索引擎的爬虫就可以了。
设置方法:
打开 Chrome 浏览器;
进入开发者工具:macOS 下的快捷键是 cmd option i,Win 看上面的微博截图;
点开发者工具右上角的 4 个小圆点,打开一个新菜单(看下图),这是 macOS 的操作方法,win 看上面的截图;
再点 more tools,再点 network conditions,你会看到一个新的窗口;
最后勾选新窗口里的 disable cache,然后把 user agent 更改为 Googlebot,也就是让这个网站以为你是 Google 搜索的爬虫。
这样设置只适用于当前网站,当你打开其他网站,或者关了当前网站,这个设置会自动恢复为默认值,如需使用要重新设置。
tombkeeper 提供了另一种全局设置的方法,请参考:
有些网站不对游客开放,需要注册登录之后才能访问,通过把自己伪装成搜索引擎爬虫,我们就能正常访问这些页面了。当然啦,这个方法只适用于部分网站,还有很多网站即使对爬虫也不开放。
微信公众号:科技微讯