Python网页爬虫之中文乱码

最新推荐文章于 2024-08-08 17:59:21 发布

ToringZZZ

最新推荐文章于 2024-08-08 17:59:21 发布

阅读量2.3w

点赞数 4

分类专栏： Python 爬虫文章标签： python html

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_34260423/article/details/54897259

版权

Python 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

Python是个好工具，但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题，中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道，之前爬取的一个学校网页就出现了这个问题，但是当时并没有解决，这着实成了我一个心病。这不，刚刚一解决就将这个方法公布与众，大家一同分享。

首先，我说一下Python中文乱码的原因，Python中文乱码是由于Python在解析网页时默认用Unicode去解析，而大多数网站是utf-8格式的，并且解析出来之后，python竟然再以Unicode字符格式输出，会与系统编码格式不同，导致中文输出乱码，知道原因后我们就好解决了。下面上代码，实验对象仍是被人上了无数遍的百度主页~

# -*- coding: utf-8 -*-

import urllib2
import re
import requests
import sys

import urllib
#设置编码
reload(sys)
sys.setdefaultencoding('utf-8')
#获得系统编码格式
type = sys.getfilesystemencoding()
r = urllib.urlopen("http://www.baidu.com")
#将网页以utf-8格式解析然后转换为系统默认格式
a = r.read().decode('utf-8').encode(type)
print a

最后输出效果，中文完美输出

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ToringZZZ CSDN认证博客专家 CSDN认证企业博客

码龄9年

43: 原创

105万+: 周排名

99万+: 总排名

12万+: 访问

: 等级

1482: 积分

27: 粉丝

33: 获赞

9: 评论

47: 收藏

私信

关注

热门文章

分类专栏

c/c++ 19篇
windows编程 19篇
web 1篇
java 5篇
树莓派 4篇
Python 3篇
OpenCV 2篇
Android开发 5篇
MySQL 1篇
LINUX 2篇
其他 1篇
爬虫 2篇

最新评论

编程实现执行CMD命令-用照片查看器打开图片
xiximaha: 可以用win10的“照片”打开吗，dll不在windows\system32\，下面
注入(4)--消息钩子注入(SetWindowsHookEX)
轻箬笠: 作者好久没来了。我测试这个案例是失败的。MyMessageProcess名字写错了；然后ReadProcessMemory错误，错误码299，我用https://www.cnblogs.com/moher/archive/2013/05/16/3082175.html获取的主线程ID。但是用这个mainThreadId执行SetWindowsHookEx失败，错误码87。后面的人如果有解决方案，请写一下。我的环境是win10 x64，vs2019
配置Sublime Text3编译汇编并高亮代码
锟斤拷有点烫: 具体怎么添加MasmAssembly呢？可以讲解一下吗
Python网页爬虫之中文乱码
TJq^Sv47 回复 Mr_Sworder: 正则，博主没有用到。
Python爬虫技术（一）--模拟登陆
CHIRISTIAN: 你好，我最近也在研究爬虫，我看了许多爬虫的例子，我发现很多都有你第六行的东西，这个的作用是怎么作用于整个程序的？

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。