response.get乱码问题

最新推荐文章于 2023-12-10 23:42:18 发布

国际撩妹大佬

最新推荐文章于 2023-12-10 23:42:18 发布

阅读量341

点赞数

文章标签： gbk

本文链接：https://blog.csdn.net/weixin_42496318/article/details/108866772

版权

该博客主要介绍了在使用Python进行网络爬虫时遇到的编码问题。作者在爬取一个GBK编码的网页时，由于response默认编码为iso-8859-1，导致了乱码。解决方案包括两种：一是直接设置response的编码为GBK；二是对获取的乱码内容重新解码为GBK。博客中通过实例展示了如何修改代码来正确爬取和保存图片，并输出了图片名称，表明爬取成功。

摘要由CSDN通过智能技术生成

import requests
from lxml import etree
if __name__ == '__main__':

    url = "http://pic.netbian.com/4kmeinv/"
    headers = {
        'user-agent': 'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/85.0.4183.121Safari/537.36',
    }
    page_html = requests.get(url=url, headers=headers)
    page_html.encoding = 'gbk'
    page_html = page_html.text
    # print(page_html)
    tree = etree.HTML(page_html)
    li_list = tree.xpath('//div[@class="slist"]/ul/li')
    for li in li_list:
        img_base_link = li.xpath('./a/img/@src')[0]
        img_link = "http://pic.netbian.com" + img_base_link
        img_alt = li.xpath('./a/img/@alt')[0]
        img_data = requests.get(url=img_link, headers=headers).content
        img_name = img_alt + ".jpg"
        filepath = "data/" + img_name + ".jpg"
        fp = open(filepath, 'wb')
        fp.write(img_data)
        fp.close()
        print(img_name + "爬取完毕")
    print("爬取结束")

其中遇到了乱码问题，原因是源网页编码用的是gbk，response默认使用iso-8859-1编码，怎么看源网页编码方式，打开源网页，搜索charset

在这里插入图片描述
可以看到愿望的编码方式。

解决方法一：
将response编码方式改为与网页一样，这里是gbk

page_html = requests.get(url=url, headers=headers)
    page_html.encoding = 'gbk'
    page_html = page_html.text

解决二：
将由response的iso-8859-1编码方式出来的乱码，重新解码成gbk
img_name = img_name.encode(“iso-8859-1”).decode(‘gbk’)

国际撩妹大佬

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫