c++下的中文处理：编码与转码

最新推荐文章于 2024-08-15 19:06:46 发布

tjhd1989

最新推荐文章于 2024-08-15 19:06:46 发布

阅读量1.6k

点赞数 1

分类专栏： c++ 文章标签：中文处理 C++ utf-8 字符编码

本文链接：https://blog.csdn.net/tjhd1989/article/details/37938763

版权

本文介绍了C++在Linux环境下处理中文字符的两种方法，包括将UTF-8编码转换为Unicode以及直接解析UTF-8编码处理字符。讨论了UTF-8、GBK、GB2312和GB18030编码的区别，并提供了相关转换函数的示例代码。

摘要由CSDN通过智能技术生成

处理平台：linux

1. 中文编码

中文字符常见的编码方式有：gb2312, gbk, gb18030和utf-8。这些都是内码，即字符存储在计算机中的编码方式。

gb2312编码由国家标准总局于1980制定，共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄西里尔字母在内的682个字符。在gb2312编码下，汉字占2个字节，英文字母占一个字节。（参考：http://zh.wikipedia.org/wiki/GB_2312）

gbk为gb2312的扩展，来源于微软的cp936编码（两者可视为等同），于1995年被国家确定为汉字编码规范，共收录有21886个符号，完全兼容gb2312的所有字符。但与gb2312相比，收录了更多的简体字，并支持繁体字。在gbk编码下，汉字占2个字节，英文字母占一个字节。（参考：http://zh.wikipedia.org/wiki/GBK）

gb18030为国家于2005年制定的中文编码标准，与gb2312完全兼容，与gbk基本兼容，支持Unicode的全部统一汉字，共收录汉字70244个。采用多字节编码，每个字可以由1个、2个或4个字节组成。（参考：http://zh.wikipedia.org/wiki/GB_18030）

utf-8为unicode编码的实现方式之一（其他的实现方式还有utf-16, utf-32）。utf-8是一种变长的编码，占1-4个字节，但中文下最多只用到3个字节，其中汉字占3个字节。

虽然gb18030是最新的中文编码标准，但是现在貌似用的并不多。而gb2312由于支持的字符太少，现在已较少被使用。所以，中文编码一般选用utf-8和gbk，而utf-8通常是首选。

利用相关命令，可以直接查看字符编码，如在编码方式为utf-8的文件1.txt中存储一行文字：“专业”

通过命令hexdump可以看到：汉字”专“的utf-8编码为e4b893,而”业“的utf-8编码为e4b89a（0a为换行符编码）