python3-html文本乱码

HTML响应格式

第一种

html.encoding="utf-8"

第二种

html.encoding="GBK"

第三种

response=requests.get('www.test.com')
response.encoding = response.apparent_encoding

第三种的来源于:大佬整理的比较详细。(click)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当爬取网页内容时,有时可能会遇到乱码问题。下面是一些解决乱码问题的常见方法: 1. 确定网页编码:首先,需要确定网页的正确编码方式。可以查看网页的HTTP响应头中的Content-Type字段,或者通过网页源代码中的meta标签来获取。常见的编码方式有UTF-8、GBK、ISO-8859-1等。 2. 指定正确的编码方式:在使用Python爬虫时,可以通过指定正确的编码方式来解决乱码问题。例如,可以使用requests库发送网络请求时,通过设置`response.encoding`属性来指定编码方式,如`response.encoding = 'UTF-8'`。 3. 使用合适的解码方式:如果指定了正确的编码方式仍然无法解决乱码问题,可以尝试使用其他解码方式进行解码。可以使用Python的内置字符串方法`decode()`或者第三方库(如chardet)来进行解码。 4. 处理特殊字符:有时候,网页中可能包含一些特殊字符,如非法字符或HTML实体编码。可以使用第三方库(如html.parser)来对这些特殊字符进行处理,将它们转换为正常的文本。 5. 使用Unicode进行处理:如果以上方法仍然无法解决乱码问题,可以尝试将乱码文本转换为Unicode编码,并进行适当的处理。可以使用Python的`encode()`和`decode()`方法来进行编码和解码。 需要注意的是,乱码问题的解决方法因具体情况而异,可能需要根据实际情况进行调试和尝试不同的解决方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值