如果对你有帮助,请帮忙点个小小的赞哦,谢谢。
看了一些教程抓取小说的示例,自己做的时候发现读出来的中文都是乱码的第一时间发现,要不就是网站屏蔽了python抓取信息,要不就是网页编码的问题,果不其然
本人使用的是mac 软件是最新版的 py charm ce 的idea编写,挺好用的这个 idea
# -*- coding:UTF-8 -*-
import requests
# 这个是自己电脑的信息 防过滤python
req_header = {
'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36' ,
'Connection' : ' keep-alive'
}
if __name__ == '__main__':
req_url = 'http://www.biqukan.net/book/110254/43501091.html'
req = requests.get(url=req_url,params= req_header)
data = req.text.encode("latin1").decode("gbk")
print(data)
关于这个req_header 有些网站是防止你使用 python 抓取数据的
里面的数据 从何而来?(mac + chrome)
1. Command+option + i 打开网页审查元素(使用环境为windows 或者是其它浏览器,右键:审查元素即可)
2. 点击 network
3. Command + R 刷新网页 如下图 qq_39007425往往存储了 Request Header ,单击qq_39007425
4. 在右侧找到你的Request Header 的信息即可