Python爬虫编程思想(11):用urllib请求基础验证页面
目录
1. 设置英文HTTP请求头
如果用爬虫向服务端发送HTTP请求,通常需要模拟浏览器的HTTP请求,也就是让服务端误认为客户端是浏览器,而不是爬虫,这样就会让服务器的某些反爬虫技术失效。但模拟浏览器发送HTTP请求需要设置名为User-Agent的HTTP请求头,除了这个请求头外,还可以会设置其他的请求头,而我们以前使用urlopen函数发送HTTP请求,请求头都使用的默认值。
urlopen函数本身并没有设置HTTP请求头的命名参数,要想设置HTTP请求头,需要为urlopen函数传入Request对象,可以通过Request类构造方法的headers命名参数设置HTTP请求头。
下面的例子修改了User-Agent和Host请求头,并添加了自定义请求