Python3 Learning（三）利用requests抓取网页源码中文乱码问题-CSDN博客

本文链接：https://blog.csdn.net/qq_39097425/article/details/86618325

如果对你有帮助，请帮忙点个小小的赞哦，谢谢。

看了一些教程抓取小说的示例，自己做的时候发现读出来的中文都是乱码的第一时间发现，要不就是网站屏蔽了python抓取信息，要不就是网页编码的问题，果不其然

本人使用的是mac 软件是最新版的 py charm ce 的idea编写，挺好用的这个 idea

# -*- coding:UTF-8 -*-
import requests

# 这个是自己电脑的信息 防过滤python
req_header = {
'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36' ,
'Connection' : ' keep-alive'
}

if __name__ == '__main__':
    req_url = 'http://www.biqukan.net/book/110254/43501091.html'
    req = requests.get(url=req_url,params= req_header)
    data = req.text.encode("latin1").decode("gbk")
    print(data)

关于这个req_header 有些网站是防止你使用 python 抓取数据的

里面的数据从何而来？（mac + chrome）

1. Command+option + i 打开网页审查元素（使用环境为windows 或者是其它浏览器，右键：审查元素即可）

2. 点击 network

3. Command + R 刷新网页如下图 qq_39007425往往存储了 Request Header ,单击qq_39007425

4. 在右侧找到你的Request Header 的信息即可