爬虫实战 报错解决方法合集

1.爬取的中文内容出现乱码

在这里插入图片描述解决方法: 添加代码查看网页的编码方式。运行结果显示,网页编码是ISO-8859-1的模式。

    resp = requests.get(url=url, headers=headers)
    print(resp.encoding)

在这里插入图片描述
在查看源码的编码模式,查看charset可知源码的编码模式是utf-8
在这里插入图片描述
通过可知,当前页面的编码是ISO-8859-1,但是网页实际需要的是utf-8,所有我们需要进行转码。

import requests
from bs4 import BeautifulSoup
 
url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
page_text = requests.get(url)
print(page_text.encoding)
page_text.encoding = 'utf-8'
print(page_text.encoding)
soup = BeautifulSoup(page_text.text, 'lxml')
print(soup)

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值