下载小说时，python字符集编码utf-8和GBK的错误处理(慎！)

小戴测试

于 2024-08-24 10:57:58 发布

阅读量733

点赞数 13

文章标签： python

本文链接：https://blog.csdn.net/ad123_qwe/article/details/141495960

版权

创作背景

今天想找本小说看，但是居然只能在网页上能找到资源，作为一名测试工程师，这能忍？多么严重的体验，这还能一起愉快的玩耍了吗？还能好好摸鱼了吗？

果断花点时间，查看页面结构，写个脚本自动请求网页，获取小说内容，并进行储存到本地txt文件中，放在手机里，躺在床上慢慢看。没想到，来回调试了好几次，o(╯□╰)o。

好吧，工作都没这么热情，果然爱好才是第一生产力。\(^o^)/~

遇见问题

大部分的网页都是utf-8编码，所以在进行请求和写入文件中时，不会出现乱码的问题。但不包括所有网页都是如此，有些网页会采用的GBK形式编码，这种情况下，网页正文内容中还使用如&nbsp形式来代替【不换行空格】。当两者buff叠加，因为写入文件时，GBK编码不认识&nbsp，运行时会出现报错，导致中断。等了十几分钟，美滋滋准备打开文件看小说时，发现一章没下了，那种心情。家人们，谁懂啊，泪如雨下啊有木有。废话较多，进入正题。

原文

with open("123.txt", 'a', encoding="GBK") as f:
    f.write(a)
    f.write('\n')
    f.write(content)
    f.write('\n')

报错信息

Traceback (most recent call last):

File "D:/pyproject/xiaoshuo/xiaoshuo2.py", line 215, in <module>

f.write(content) UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 3: illegal multibyte sequence

修改后

with open("123.txt", 'a', encoding="GBK") as f:
    f.write(a)
    f.write('\n')
    try:
        f.write(content)
    except UnicodeEncodeError:
        # 如果遇到编码错误，则尝试转换编码
        encoded_content = content.encode('GBK', errors='replace')
        safe_content = encoded_content.decode('GBK').replace('????????', '\n')
        f.write(safe_content)
        f.write('\n')
    f.write('\n')