response.get乱码问题

import requests
from lxml import etree
if __name__ == '__main__':

    url = "http://pic.netbian.com/4kmeinv/"
    headers = {
        'user-agent': 'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/85.0.4183.121Safari/537.36',
    }
    page_html = requests.get(url=url, headers=headers)
    page_html.encoding = 'gbk'
    page_html = page_html.text
    # print(page_html)
    tree = etree.HTML(page_html)
    li_list = tree.xpath('//div[@class="slist"]/ul/li')
    for li in li_list:
        img_base_link = li.xpath('./a/img/@src')[0]
        img_link = "http://pic.netbian.com" + img_base_link
        img_alt = li.xpath('./a/img/@alt')[0]
        img_data = requests.get(url=img_link, headers=headers).content
        img_name = img_alt + ".jpg"
        filepath = "data/" + img_name + ".jpg"
        fp = open(filepath, 'wb')
        fp.write(img_data)
        fp.close()
        print(img_name + "爬取完毕")
    print("爬取结束")

其中遇到了乱码问题,原因是源网页编码用的是gbk,response默认使用iso-8859-1编码,怎么看源网页编码方式,打开源网页,搜索charset

在这里插入图片描述
可以看到愿望的编码方式。

解决方法一:
将response编码方式改为与网页一样,这里是gbk

page_html = requests.get(url=url, headers=headers)
    page_html.encoding = 'gbk'
    page_html = page_html.text

解决二:
将由response的iso-8859-1编码方式出来的乱码,重新解码成gbk
img_name = img_name.encode(“iso-8859-1”).decode(‘gbk’)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值