# -*- coding:utf-8 -*-
# 导入 urllib2 模块
import urlllib2
# 向指定的url发送请求,服务器返回类文件对象 response
response = urllib2.urlopen("http://www.baidu.com")
# 类文件对象支持文件的操作方法,获取相应的内容
html = response.read()
# 定义一个变量名为 filename 的变量,把“百度首页” 存储到filename变量内
filename = “百度首页.html”
# 将获取响应的内容存储到文件 filename中
with open(filename.decode("utf-8"), 'w') as f:
f.write(html)
在 Python2 中的字符默认编码格式是 ascii, 所以不支持中文编码。但新出的python3的默认编码格式则是 unicode,支持中文编码。
支持中文编码的有 utf-8 , gbk, gb2312, 因为 utf8 支持变长编码,英文一个字节,普通汉字三个字节,生僻字4到6个字节。
所以我们在使用 python 进行编程的时候,会在程序的开头添加这一段代码,防止文件中有中文,导致编码错误,出现乱码现象。
a. 第一种: # -*- coding:utf-8 -*-
b. 第二种: # coding=utf-8
c. 第三种:
import sys
reload(sys)
sys.setdefaultencoding("utf-8")