windows和linux下的utf8和gbk编码问题

好的,我来填坑了

首先介绍一下问题背景:由于客户的label是一张图片上的各个要素在对应的一个txt文件上,所以要解析txt文件得到各个要素的csv文件,但是在解析的时候发现,以utf8格式读txt文件会遇到编码错误问题,以gbk也会遇到,错误类似于UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 4040: illegal multibyte sequence,只是不同的txt文件出问题,所以发现了这些txt文件有的是以gbk编码的,有的是以utf8编码的,所以就想都转成gbk的,结果又报错,用notepad++查看报错的txt文件,结果发现编码方式为utf8-bom的,在网上查的资料如下:https://blog.csdn.net/qq_21460525/article/details/66971225,简而言之,就是转成gbk的时候,以utf-8-sig这种方式去读,终于折腾了一下不报错了

import codecs

with open("xx.txt",'r','utf-8-sig') as file: 

line = file.readlines();

结果在查看要素的csv文件label的时候,发现并没有按照预期得到相应位置的要素,再看相应的txt文件,发现,在linux下打开,有^M符号,在windows下用notepad++查看的时候有换行,(注博主推断都是在windows下做的标注,这个是经过各种推理及查资料得到的结论)

后来发现是因为做标注的有一个人在标注的时候没有按照给的固定的txt格式去标注,而是自己随意加了换行,并且保存的时候并没有按照默认gbk的方式去保存,而是按照utf8保存的,其他人则是严格按照格式做的txt,并没有自己加换行符,并且是按照默认的gbk去保存的。而linux下面的换行符和windows下是不一样的,linux下默认的编码方式是utf8,UTF-8分为两种,一种是不带BOM的,一种是带BOM的。其中第一种不带BOM的是标准形式,第二种带BOM的主要是微软的习惯,因此linux下的utf8在windows下修改完后保存按照utf8的格式的话是带bom的,而windows下默认的编码方式是gbk。

下面第一张图是有问题的,第二张图是正常的(windows的编码方式默认是gbk和linux默认是utf8,所以由于在windows下是utf8保存的(带bom的utf8,^M是因为在windows下的换行符到了linux下的显示),在linux能正常显示,而在windows下是gbk保存的在linux下就会出现乱码)

 

 

这个 ^M符号在linux下能显示出来,在windows下显示不出来,因为这是windows下的回车换行符号。

最终用下面的代码把有问题的txt筛选出来:

然后用notepad++把这些有问题的txt里面的换行符全部替换成空格,一键即可(notepad++真是好用)

最后用下面的代码全部转成了gbk

 

写完这篇wiki感觉自己有当侦探的潜力,各种还原客户标注时的情形,虽然问题不是很难,但是发现问题的过程不容易啊,遇到编码问题就是要多试试多查查,瞎猫总能碰上死耗子的,不定哪种方法就成功了

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Linux 系统下,可以使用 iconv 函数库将字符串编码UTF-8 转换为 GBK 编码。 具体的实现步骤如下: 1. 包含头文件 `#include <iconv.h>` 2. 定义 iconv_t 变量,用于存储转换句柄。 3. 调用 iconv_open 函数打开转换句柄。 4. 准备源字符串和目标字符串的缓冲区,以及它们的长度。 5. 调用 iconv 函数进行转换。 6. 关闭转换句柄。 7. 释放缓冲区。 下面是一个简单的示例代码: ```cpp #include <iostream> #include <iconv.h> #include <cstring> int main() { // 源字符串 const char* str_utf8 = u8"这是一段 UTF-8 编码的字符串。"; // 转换句柄 iconv_t cd = iconv_open("GBK", "UTF-8"); if (cd == (iconv_t)-1) { perror("iconv_open"); return -1; } // 源字符串的长度和目标字符串的缓冲区 size_t len_utf8 = strlen(str_utf8); size_t len_gbk = len_utf8 * 2; // 预留足够的空间 char* str_gbk = new char[len_gbk]; // 进行转换 char* inbuf = const_cast<char*>(str_utf8); char* outbuf = str_gbk; size_t inlen = len_utf8; size_t outlen = len_gbk; if (iconv(cd, &inbuf, &inlen, &outbuf, &outlen) == (size_t)-1) { perror("iconv"); iconv_close(cd); delete[] str_gbk; return -1; } // 输出结果 std::cout << "UTF-8 编码的字符串:" << str_utf8 << std::endl; std::cout << "GBK 编码的字符串:" << str_gbk << std::endl; // 关闭转换句柄并释放缓冲区 iconv_close(cd); delete[] str_gbk; return 0; } ``` 需要注意的是,在实际使用过程中,可能会遇到一些编码转换失败的情况,需要根据具体的错误码进行处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值