python抓网页中文乱码问题

转载 2012年03月24日 15:10:28
import urllib2
import sys
content = urllib2.urlopen("http://www.higis.cn").read()   #网站页面是utf-8编码的。

type = sys.getfilesystemencoding()   # 关键
print content.decode("UTF-8").encode(type)  # 关键

相关文章推荐

Python 中文乱码问题深入分析

  • 2014年08月25日 16:13
  • 345KB
  • 下载

Python网页爬虫之中文乱码

Python爬取中文网页乱码解决方法

node.js jsdom gb系列网页中文乱码问题解决方案

Email:longsu2010 at yeah dot net 最近使用node.js写点东西,使用到了jsdom。使用过程中遇到解析GBK或者GB2312编码网页乱码的问题。下面以"http://...
  • tt361
  • tt361
  • 2013年04月07日 19:41
  • 4631

网页post和get方法中的中文乱码问题详解

1. gb2312、gbk、iso8859-1、utf8     面对中文乱码的时候首先要解决为什么会乱码?乱码的本质是用来解码的方式不对,而且乱码一般只会出现在中文等语言中。我们常见的就是标题中的...

js对url网页地址中文乱码问题的处理方法

先看例子: 有这么一个网页地址:http://www.17xmf.com/index.php?act=exercises&kd=3258&kname=不等式的解法(分析法、综合法、比较法). 当我...
  • gayayzy
  • gayayzy
  • 2012年09月19日 11:21
  • 6179

网页UTF-8中文乱码问题解决方法

结论:采用UTF-8编码,除了要将文件另存为UTF-8格式之外,还需要同时指定codepage及charset 网页UTF-8中文乱码问题解决方法只有经过多方面测试的东西才有质量的保证和说服...

2015.10.22小结Mysql中文乱码问题完美解决方案(包括建库、导入数据、网页)

MySQL会出现中文乱码的原因不外乎下列几点: 1.server本身设定问题,例如还停留在latin1 2.table的语系设定问题(包含character与collation) 3.客户端程式...

网页中文乱码问题

1,首先 中文乱码问题:: Tomcat Server的server.xml中 2,然后, 使用 js的 encodeURIComponent(“”...

关于使用libcurl下载网页源码中文乱码问题!

近日使用了libcurl这个库,功能强大、使用方便就不多说了。在使用过程中还是遇到挺多的问题的,无奈libcurl开发文档(貌似没有,index.html也没有错误解决部分)实在看不懂,因此为一些小问...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:python抓网页中文乱码问题
举报原因:
原因补充:

(最多只允许输入30个字)