Python3 Learning(三) 利用requests抓取网页源码中文乱码问题

如果对你有帮助,请帮忙点个小小的赞哦,谢谢。

看了一些教程抓取小说的示例,自己做的时候发现读出来的中文都是乱码的第一时间发现,要不就是网站屏蔽了python抓取信息,要不就是网页编码的问题,果不其然

本人使用的是mac  软件是最新版的 py charm ce 的idea编写,挺好用的这个 idea

 

# -*- coding:UTF-8 -*-
import requests

# 这个是自己电脑的信息 防过滤python
req_header = {
'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36' ,
'Connection' : ' keep-alive'
}

if __name__ == '__main__':
    req_url = 'http://www.biqukan.net/book/110254/43501091.html'
    req = requests.get(url=req_url,params= req_header)
    data = req.text.encode("latin1").decode("gbk")
    print(data)

 

关于这个req_header 有些网站是防止你使用 python 抓取数据的

里面的数据 从何而来?(mac + chrome)

1.  Command+option + i 打开网页审查元素(使用环境为windows 或者是其它浏览器,右键:审查元素即可)

2. 点击 network 

3. Command + R 刷新网页 如下图 qq_39007425往往存储了 Request Header ,单击qq_39007425

4. 在右侧找到你的Request Header 的信息即可

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值