最近一直在搞爬虫,忽然间发现搜索关键字的链接爬到的结果将汉字转换成了以大串编码,哈哈,那么问题来了,不同网站的转化编码竟然不一样。
ok,google了一番,结果是每个网站的固定编码不一样,用的url编码也不一样。比如百度的为gbk,google的为utf8.那么怎么转化呢,下面是python的编码转换:
#-*- coding:utf8 -*-
'''
Created on Dec 3, 2014
@author : tutuhong
'''
import urllib,urllib2
import sys
def urlencode(word,codeType):
address = urllib.quote(word.decode(sys.stdin.encoding).encode(codeType))
return address
是的,就是这么简单!