不同的网站有不同的编码方式,同时,当我们从从服务器获取编码的编码可能跟网页中声明的编码又不一样,所有我们需要编写一个工具里来获取网页的编码方式
这里主要说明一个获取编码的小工具chardet
安装方式:pip install chardet (sudo)
使用chardet.detect()方法
“`
# -- coding: utf-8 --
import urllib
import chardet
url = ‘http://www.jd.com’
def getEncoding(url):
”’
@url:需要获取到的编码方式的链接:http://www.hao123.com
”’
html = urllib.urlopen(url)
data = html.read()
result = chardet.detect(data)
return result[‘encoding’]
def main():
print getEncoding(url)
if name == ‘main‘:
main()“`