Python3 利用requests抓取网页源码中文乱码问题（由gb2312编码引起）

最新推荐文章于 2023-11-07 17:12:44 发布

东一鱼

最新推荐文章于 2023-11-07 17:12:44 发布

阅读量7.8k

点赞数 7

分类专栏： Python 文章标签： python3-爬虫 gb2312 乱码源码

本文链接：https://blog.csdn.net/CSDN_ChenSir1995/article/details/80190765

版权

核心问题：

meta charset = “gb2312”
requests
中文乱码
×îÐÂÏûÏ¢_¡¶ÃÎ»ÃÎ÷ÓÎ¡·µçÄÔ°æ¹Ù·½ÍøÕ¾

以梦幻西游官网为例

网页 http://xyq.163.com/news/index.html
header部分

<!DOCTYPE html>
<head>
<meta charset="gb2312" />
<!--This is Git Project From XYQ/xyq-gw-20170104(4899)-->
<title>最新消息_《梦幻西游》电脑版官方网站 - 网易西游题材扛鼎之作</title>
<meta name="keywords" content="《梦幻西游》电脑版,Q版网游,人气网游,回合制网游, 网易游戏,梦幻西游下载,梦幻西游官网, 梦幻西游序列号,最好玩的网游" />
<meta name="description" content