python爬虫系列二:requests-乱码处理(2)

本文主要探讨了Python爬虫中requests库在处理乱码问题上的方法,包括人工转码和自动处理。介绍了编码方式属性如gbk、utf-8,以及通过meta的charset来确定编码。讲解了decode和encode函数在转码过程中的应用。同时,提到了自动处理乱码时可以使用chardet模块检测内容的编码,通过res2.status_code检查请求状态,并利用chardet.detect(rp.content)['encoding']获取编码信息。
摘要由CSDN通过智能技术生成

在转码之前,我们首先了解一下常识:

  1. 编码方式属性encoding:gbk,utf-8,寻找编码方式,找meta下的charset
  2. 转码函数:decode,encode
  3. rp.content本身就是字节流形式
  4. rp.text字符串形式

人工转码

decode,encode,encoding

#人工转码
#转码函数:decode(),encode()

import requests
res=requests.get("http://ibeifeng.com")
#print(res.content.decode("gbk"))#字节流(bytes)->字符串(str)
#print(res.text.encode("gbk")) #字符串(str)->字节流(bytes)

#如果出现乱码,就需要转换编码方式,
#encoding 编码方式属性,设置text编码格式
res2=reques
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值