一:浏览器伪装技术原理:
我们尝试着爬取csdn的博客,可以发现返回403的状态码,因为对方服务器会对爬虫进行屏蔽。此时我们需要伪装成浏览器进行爬取。我们一般都过报头进行浏览器的伪装。
二:实战
浏览器的网页的 报头中用 User-Agent 字段对应的值来判断是否是浏览器。
所以如果要模拟成浏览器就要在请求的时候对报文进行修改,将User-Agent的值改成对应的浏览器应该有的值。
(1)下面我打开我的博客,网址为https://blog.csdn.net/weixin_41167340,然后点击F12,点击F5进行刷新,就会出现如下图。随便点击一个网页,找到“Network”,随便点击一个“wh.js”,然后在“header”中寻找User-Agent这个字段。发现这个字段对应着一个值.把这个值复制下来。
代码如下: