Python 爬虫中文返回乱码

跳舞的皮埃尔

已于 2022-09-07 08:50:25 修改

阅读量1.7k

点赞数 2

分类专栏：笔记 Python 文章标签： python 爬虫开发语言

于 2022-09-06 23:01:06 首次发布

本文链接：https://blog.csdn.net/a6661314/article/details/126735762

版权

笔记同时被 2 个专栏收录

101 篇文章 5 订阅

订阅专栏

Python

25 篇文章 4 订阅

订阅专栏

本文介绍了在使用Python进行网页爬虫时遇到的中文乱码问题及其解决方法。作者通过检查目标网站的编码格式，发现网页为UTF-8编码，然后在请求后设置正确的编码，成功解决了乱码问题，实现了对学校官网新闻标题、时间和链接的正常爬取。

摘要由CSDN通过智能技术生成

1、情景复现

今天闲的无聊，就复习一下爬虫，先拿学校官网做实验，爬取学校官网新闻标题、时间以及链接，可是返回的中文一直是如下的乱码：

在这里插入图片描述

2、尝试解决

我们先查看要爬取的网站的编码方式，在要爬取的网站用鼠标右击–>检查–>点击Console 输入 document.charse 即可显示出网页的编码格式，如图：

在这里插入图片描述

一开始我们的代码是：

import requests
from lxml import etree
html = requests.get('https://www.cczu.edu.cn/')
tree = etree.HTML(html.text)
a = tree.xpath("//ul[@class='clearfix']/li")
total = []
for i in a:
    title = ''.join(i.xpath('.//h2//text()'))
    time = ''.join(i.xpath('.//h3//text()'))
    link = ''.join(i.xpath('./h2/a/@href'))
    print(title, time, link)

那咱来根据其网页的编码格式，把 request 返回的乱码转换一下：

import requests
from lxml import etree
html = requests.get('https://www.cczu.edu.cn/')
# 新增编码格式
html.encoding = "utf-8"
tree = etree.HTML(html.text)
a = tree.xpath("//ul[@class='clearfix']/li")
total = []
for i in a:
    title = ''.join(i.xpath('.//h2//text()'))
    time = ''.join(i.xpath('.//h3//text()'))
    link = ''.join(i.xpath('./h2/a/@href'))
    print(title, time, link)