Python2
# -*- coding:utf-8 -*-
import urllib2
# 向指定的url发送请求,并返回服务器响应的类文件对象
response = urllib2.urlopen("http://www.baidu.com")
# 类文件对象 支持文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
html = response.read().decode("utf-8")
print html
import urllib2
user_agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"
ua_header = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
request = urllib2.Request("http://www.baidu.cn", data=None, headers=ua_header) # get 请求
request = urllib2.Request("http://www.baidu.cn", data=data, headers=ua_header) # post请求
# 也可以通过调用Request.add_header() 添加/修改一个特定的header。可以是User-Agent信息。
request.add_header("User-Agent", user_agent)
request.add_header("Connection", "keep-alive")
# 也可以通过调用Request.get_header() 查看一个特定的header信息。可以是User-Agent信息。
request.get_header("User-agent")
request.get_header(header_name="Connection")
response = urllib2.urlopen(request)
html = response.read().decode("utf-8")
print html
# response 是服务器响应的类文件,除了支持文件操作的方法外,还支持以下常用的方法:
# 返回 HTTP的响应码,成功返回200,4服务器页面出错,5服务器问题
print response.getcode()
# 返回 返回实际数据的实际URL,防止重定向问题
print response.geturl()
# 返回 服务器响应的HTTP报头
print response.info()
Python3