【转】Python urllib2.urlopen打开中文url的编码处理

最新推荐文章于 2021-04-22 17:13:11 发布

searchwang

最新推荐文章于 2021-04-22 17:13:11 发布

阅读量3.4k

点赞数

分类专栏： python 文章标签： url 中文

python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

http://hi.baidu.com/andimeo/item/4eec9ad4dc25622a38f6f736

考文章：http://lijiang.javaeye.com/blog/312247

在用urllib2.urlopen(url)时，如果url里面包含中文，则必须对此url进行编码处理，否则会引起UnicodeError。
搜索后找到了相关的处理方法

引用参考文章的：

当处理HTTP链接的时候，链接如果有中文的话，那么发起HTTP链接的时候，一定要先把URL编码，否则就会出现问题。
而在python中，用 urllib2.quote(URL)进入编码和urllib2.unquote(URL) 解码的时候，有一点需要注意：
就是URL字符串不能是 unicode编码，此时必须把URL编码转换成适当的编码，如utf-8或gb2312等。
而python处理编码转换的机制如下：原来编码>>内部编码>>目的编码
python的内部编码是使用unicode来处理的

>>>gb=”中国” #此处为原本gb2312编码 >>>uni=unicode(gb,'gb2312') #把gb2312编码转换成unicode的内部编码 >>>utf=uni.encode('utf-8') #把unicode编码转换成utf-8目的编码

因为中文在URL中进行了url quote处理的，例如：

http://***.com/newsearch/books/?query=你好

实际上的URL是：

http://***.com/newsearch/books/?query=%C4%E3%BA%C3

因此在将url传给urlopen之前，应该对url进行unquote
python 文档中对unqoute的描述为：

Replace %xx escapes by their single-character equivalent.

Example: unquote(‘/%7Econnolly/’) yields ‘/~connolly/’.

综上所述，对url先进行编码上的转换，然后再用unquote处理，就能得到可获取的url了。
我的代码如下：

query=request.GET['query'] url='http://***.com/search/api/books/q=' + query url=url.encode('utf-8') url=urllib2.unquote(url) data=urllib2.urlopen(url)