【python】爬虫笔记-提取图片中alt属性中文乱码

最新推荐文章于 2023-10-05 15:29:18 发布

wangcles

最新推荐文章于 2023-10-05 15:29:18 发布

阅读量1k

点赞数

分类专栏：爬虫笔记文章标签： python pycharm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangcles/article/details/120761805

版权

爬虫笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

url = 'https://pic.netbian.com/4kdongwu/'
    page_text = requests.get(url=url,headers=headers).text
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//div[@class="slist"]//li')
    for li in li_list:
        img_src='http://pic.netbian.com'+li.xpath('./a/img/@src')[0]
        img_name = li.xpath('./a/img/@alt')[0]+'.jpg'
        print(img_name,img_src)

网页编码与pycharm编码冲突，运行后中文显示乱码
在这里插入图片描述尝试了几种解决方案：

1.手动将响应对象的数据编码为’utf-8’

修改前的代码:

page_text=requests.get(url=url,headers=headers).text

修改后的代码：

response = requests.get(url=url,headers=headers)
response.encoding='utf-8'
page_text = response.text

运行结果：
在这里插入图片描述说明改变编码的操作生效了，但还是没有解决乱码的问题

2.找到发生乱码的部分进行iso的encode和decode

在获取图片名称的代码后面加上：

img_name=img_name.encode('iso-8859-1').decode('gbk')

乱码问题解决

3.获取响应对象数据的方式不用text改用content

修改前的代码：

page_text = requests.get(url=url,headers=headers).text

修改为：

page_text = requests.get(url=url,headers=headers).content

乱码问题解决

4. 手动将响应对象的数据编码为’gbk’

response = requests.get(url=url,headers=headers)
response.encoding='gbk'

乱码问题解决

关于gbk与utf-8以及iso-8859-1的相关知识
参见大佬的文章UTF-8和GBK的区别

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【python】爬虫笔记-提取图片中alt属性中文乱码

url = 'https://pic.netbian.com/4kdongwu/' page_text = requests.get(url=url,headers=headers).text tree = etree.HTML(page_text) li_list = tree.xpath('//div[@class="slist"]//li') for li in li_list: img_src='http://pic.netbian.com'+li.x
复制链接

扫一扫

专栏目录

wangcles CSDN认证博客专家 CSDN认证企业博客

码龄3年

12: 原创

107万+: 周排名

18万+: 总排名

1万+: 访问

: 等级

200: 积分

49: 粉丝

68: 获赞

5: 评论

91: 收藏

私信

关注

热门文章

分类专栏

刷题 2篇
前端 2篇
爬虫笔记 3篇

最新评论

代码随想录算法训练营day8day9字符串344反转字符串541反转字符串II卡码54替换数字151翻转字符串里的单词卡码55.右旋转字符串28实现 strStr()459.重复的子字符串
CSDN-Ada助手: 恭喜博主持续更新博客，分享了算法训练营day8到day9的内容，内容涵盖了字符串反转、替换数字、翻转单词等多个方面，让读者受益匪浅。建议下一步可以适当增加一些实际案例或者应用场景，让读者更好地理解算法的实际应用。希望博主能够继续保持创作热情，期待更多精彩内容的分享！
代码随想录算法训练营day4链表24两两交换链表中的节点19删除链表的倒数第N个节点链表相交142环形链表II
CSDN-Ada助手: 恭喜你写了第10篇博客！看到你对算法训练营的学习成果，我感到非常欣慰。不过，我想建议你在写博客的时候，可以适当增加一些实际应用的案例，这样读者可以更好地理解和运用你所分享的内容。希望你能继续保持创作的热情，期待你更多精彩的文章！
代码随想录算法训练营day6、day7242.有效的字母异位词349.两个数组的交集202.快乐数1.两数之和454.四数相加ll383.赎金信15.三数之和
CSDN-Ada助手: 恭喜你在算法训练营中坚持学习，第8篇博客内容丰富，对哈希表的学习也让我受益匪浅。希望你能继续保持写作的热情，同时也建议你可以尝试加入一些实际案例或者个人见解，让读者更加容易理解和接受你的观点。期待你的下一篇作品！
代码随想算法训练营day3 203.移除链表元素707.设计链表206.反转链表
CSDN-Ada助手: 恭喜您写了第7篇博客！标题中涵盖了三个有趣的算法题目，看来您在代码随想算法训练营的学习进展不错！我很欣赏您的坚持和努力，持续创作对于提高算法能力和编程技巧非常重要。在下一步的创作中，我建议您可以尝试将自己对这些题目的思考和解法进行详细的分析和讲解，这样可以帮助读者更好地理解问题和解决方案。同时，可以考虑加入一些个人的编程心得和经验分享，让读者更多地了解您的学习过程和成长历程。希望您能继续保持学习的热情，努力创作更多有价值的内容！加油！
代码随想录算法训练营day2 977 有序数组的平方209.长度最小的子数组59.螺旋矩阵II
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。