response.get乱码问题

该博客主要介绍了在使用Python进行网络爬虫时遇到的编码问题。作者在爬取一个GBK编码的网页时,由于response默认编码为iso-8859-1,导致了乱码。解决方案包括两种:一是直接设置response的编码为GBK;二是对获取的乱码内容重新解码为GBK。博客中通过实例展示了如何修改代码来正确爬取和保存图片,并输出了图片名称,表明爬取成功。
摘要由CSDN通过智能技术生成
import requests
from lxml import etree
if __name__ == '__main__':

    url = "http://pic.netbian.com/4kmeinv/"
    headers = {
        'user-agent': 'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/85.0.4183.121Safari/537.36',
    }
    page_html = requests.get(url=url, headers=headers)
    page_html.encoding = 'gbk'
    page_html = page_html.text
    # print(page_html)
    tree = etree.HTML(page_html)
    li_list = tree.xpath('//div[@class="slist"]/ul/li')
    for li in li_list:
        img_base_link = li.xpath('./a/img/@src')[0]
        img_link = "http://pic.netbian.com" + img_base_link
        img_alt = li.xpath('./a/img/@alt')[0]
        img_data = requests.get(url=img_link, headers=headers).content
        img_name = img_alt + ".jpg"
        filepath = "data/" + img_name + ".jpg"
        fp = open(filepath, 'wb')
        fp.write(img_data)
        fp.close()
        print(img_name + "爬取完毕")
    print("爬取结束")

其中遇到了乱码问题,原因是源网页编码用的是gbk,response默认使用iso-8859-1编码,怎么看源网页编码方式,打开源网页,搜索charset

在这里插入图片描述
可以看到愿望的编码方式。

解决方法一:
将response编码方式改为与网页一样,这里是gbk

page_html = requests.get(url=url, headers=headers)
    page_html.encoding = 'gbk'
    page_html = page_html.text

解决二:
将由response的iso-8859-1编码方式出来的乱码,重新解码成gbk
img_name = img_name.encode(“iso-8859-1”).decode(‘gbk’)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值