关于编码(折腾一晚上的中文乱码、中文编码问题)

1. windows 系统默认编码为:GBK

2. C++语法以字节为单元处理字符串,不关心处理中文的编码。 但是接口可以获取系统当前的编码,这并不代表什么。

所以,中文处理的切词程序会要求提前文本按照编码格式输出。

3. 编码会通过位置flag, 提醒编译器按照两位编码,还是按照三位编码。

4. 文字的编码是生成的时候,生成方决定的。xtrem 或者vim等需要解析字节的会根据自己系统设置的解码方式解码,一旦不一致就会出现乱码情况。也辅助证明从字节维度不能看出是何种编码

注:中文 UTF-8 字节长度为2-3不定,GBK字节长度为2。

附:iconv -t utf-8 -f gb2312 -c my_database.sql > new.sql:  gb2313转换成utf-8. -f 原编码 -t 目标编码 -c 无法忽略

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值