python爬虫表格数据中文乱码_解决Python网页爬虫之中文乱码问题

Python是个好工具,但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题,中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道,之前爬取的一个学校网页就出现了这个问题,但是当时并没有解决,这着实成了我一个心病。这不,刚刚一解决就将这个方法公布与众,大家一同分享。

首先,我说一下Python中文乱码的原因,Python中文乱码是由于Python在解析网页时默认用Unicode去解析,而大多数网站是utf-8格式的,并且解析出来之后,python竟然再以Unicode字符格式输出,会与系统编码格式不同,导致中文输出乱码,知道原因后我们就好解决了。下面上代码,实验对象仍是被人上了无数遍的百度主页~

# -*- coding: utf-8 -*-

import urllib2

import re

import requests

import sys

import urllib

#设置编码

reload(sys)

sys.setdefaultencoding('utf-8')

#获得系统编码格式

type = sys.getfilesystemencoding()

r = urllib.urlopen("http://www.baidu.com")

#将网页以utf-8格式解析然后转换为系统默认格式

a = r.read().decode('utf-8').encode(type)

print a

最后输出效果,中文完美输出

以上这篇解决Python网页爬虫之中文乱码问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持软件开发网。

您可能感兴趣的文章:Python3简单爬虫抓取网页图片代码实例Python爬虫学习之获取指定网页源码Python爬虫之网页图片抓取的方法Python使用爬虫爬取静态网页图片的方法详解python2.7实现爬虫网页数据Python3.x爬虫下载网页图片的实例讲解python爬虫 使用真实浏览器打开网页的两种方法总结python爬虫爬取网页表格数据基python实现多线程网页爬虫Python爬虫解析网页的4种方式实例及原理解析

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值