今天在爬取一个网页时,发现什么都是好的,就是中文乱码。查看网上好所让把编码改为utf-8,但是还是不行,后来灵光一闪,发现网页源码上有一个charset=gbk,想着试试gbk这个编码,发现可以。。。。。恶心,这反爬无所不用其极。。。。
这是代码
import requests
from lxml import etree
import os
url ="https://www.biqooge.com/"
resp= requests.get(url)
print(resp.text)
运行后发现,中文的地方会乱码
类似于这样:
添加了编码后还是没变换,后来试了一下gbk(他网页源码上的编码格式)发现可以
import requests
from lxml import etree
import os
url ="https://www.biqooge.com/"
resp= requests.get(url)
resp.encoding="gbk"
print(resp.text)