encode和decode
python中做字符转码时,通常要用unicode作为中间码
encode是将Unicode转为其他码。如
str1.encode('gb2312')
decode是将其他码转为unicode,如
str2.decode('gb2312')
转码之前可以先自动获取字符的编码格式
import chatdet
charset = chardet.detect(res)
encoding = charset['encoding']
if endoding != None:
res.decode(encoding,'ignore')
使用‘ignore’可忽略不符合规范的错误
旧版用
isinstance(s, unicode)
,新版python3之后用str代替unicode,如
isinstance(s, str)