requests获取到的网页源码中存在乱码的三个解决方法

最新推荐文章于 2022-08-01 16:59:45 发布

micromicrofat

最新推荐文章于 2022-08-01 16:59:45 发布

阅读量1.1k

点赞数 1

分类专栏： Python 爬虫文章标签： python requests 字符集

本文链接：https://blog.csdn.net/MacwinWin/article/details/107581229

版权

Python 同时被 2 个专栏收录

180 篇文章 1 订阅

订阅专栏

爬虫

16 篇文章 0 订阅

订阅专栏

>>> res = requests.get(html)
>>> print(res.text)
^&&*!!@#5%#

从html的头部可见使用gbk字符集:

<html>
<head>
	...
	<meta http-equiv="Content-Type" content="text/html; charset=gbk">
	...

方法一:

>>> res.encoding = 'gbk'
>>> print(res.text)

方法二:

>>> res.encoding = res.apparent_encoding
>>> print(res.text)

方法三:

>>> print(res.text.encode('iso-8859-1').decode('gbk')

2020-08-06 更新

某网站使用gbk进行编码
最开始我使用方法二

<!DOCTYPE html>\r\n<html>\r\n<head>\r\n    <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\r\n    <link rel="icon" href="/favicon.ico" type="image/x-icon"/>\r\n    <meta http-equiv="Content-Type" content="text/html; charset=gbk">\n    <title>【深圳-龙华新区影像����工程��_影像����工程��招聘_富士康科技集团CMBU】-前程无忧官方招聘网站</title>\n    <meta name="description" content="深圳-龙华新区影像����工程��富士康科技集团CMBU招聘，前程无忧官方网站，提供最新最全富士康科技集团CMBU招聘职位，以及深圳-龙华新区影像����工程��相关职业信息。帮助您顺利获得深圳-龙华新区影像����工程��的职位，前程无忧招聘网站助您开启崭新职业生涯，找工作上前程无忧！">\n    <meta name="keywords" content="深圳-龙华新区影像����工程��招聘,富士康科技集团CMBU招聘,深圳-龙华新区影像����工程��最新招聘信息">\n

换用方法三后

<!DOCTYPE html>\r\n<html>\r\n<head>\r\n    <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\r\n    <link rel="icon" href="/favicon.ico" type="image/x-icon"/>\r\n    <meta http-equiv="Content-Type" content="text/html; charset=gbk">\n    <title>【深圳-龙华新区影像數據工程師_影像數據工程師招聘_富士康科技集团CMBU】-前程无忧官方招聘网站</title>\n    <meta name="description" content="深圳-龙华新区影像數據工程師富士康科技集团CMBU招聘，前程无忧官方网站，提供最新最全富士康科技集团CMBU招聘职位，以及深圳-龙华新区影像數據工程師相关职业信息。帮助您顺利获得深圳-龙华新区影像數據工程師的职位，前程无忧招聘网站助您开启崭新职业生涯，找工作上前程无忧！">\n    <meta name="keywords" content="深圳-龙华新区影像數據工程師招聘,富士康科技集团CMBU招聘,深圳-龙华新区影像數據工程師最新招聘信息">\n

micromicrofat

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
requests获取到的网页源码中存在乱码的三个解决方法

>>> res = requests.get(html)>>> print(res.text)^&&*!!@#5%#从html的头部可见使用gbk字符集:<html><head> ... <meta http-equiv="Content-Type" content="text/html; charset=gbk"> ...方法一:>>> res.encoding = 'gbk
复制链接

扫一扫

专栏目录