和乱码抗争到底

最新推荐文章于 2024-09-13 23:02:24 发布

StoneSmith

最新推荐文章于 2024-09-13 23:02:24 发布

阅读量685

点赞数

文章标签：平台 byte windows java dos linux

本文链接：https://blog.csdn.net/StoneSmith/article/details/1929587

版权

内码

内码是指整机汉字系统中使用的二进制字符编码，是沟通输入、输出与系统平台之间的交换码，通过内码可以达到通用和高效率传输文本的目的。比如MS Word中所存储和调用的就是内码而非图形文字。英文ASCII 字符采用一个字节的内码表示，中文字符如国标字符集中，GB2312、GB12345、GB13000皆用双字节内码，GB18030（27,533汉字）双字节内码汉字为20,902个，其余6,631个汉字用四字节内码。

字符编码：字符编码就是以二进制的数字来对应字符集的字符，目前用得最普遍的字符集是ANSI，对应ANSI字符集的二进制编码就称为ANSI码，DOS和Windows系统都使用了ANSI码，但在系统中使用的字符编码要经过二进制转换，称为系统内码。

汉字内码：ANSI码是单一字节（8位二进制数）的编码集，最多只能表示256个字符，不能表示众多的汉字字符，各个国家和地区在ANSI码的基础上又设计了各种不同的汉字编码集，以能够处理大数量的汉字字符。这些编码使用单字节来表示ANSI的英文字符（即兼容ANSI码），使用双字节来表示汉字字符。由于一个系统中只能有一种汉字内码，不能识别其它汉字内码的字符，造成了交流的不便。

Unicode码：Unicode码也是一种国际标准编码，采用二个字节编码，与ANSI码不兼容。目前，在网络、Windows系统和很多大型软件中得到应用。

Linux下.串口传输汉字乱码分析
英文是ASCII码，中文一般为UNICODE码，你需要把发送过去的二进制数据转换成UNICODE码（可能需要加以个头来标识）

其实串口可以发送汉字，但是要把汉字拆分成2个ascii码，而且必须使用unsigned char 类型强制转化一下。
举例：
如果我要发送 “我”到串口，“我”对应的ascii码可能是 0xafad,那么你就要拆成 0xaf,0xad发送，但是一般程序使用的都是char类型，这样在拆分汉字ascii的时候，就会变成 0xffffffaf和0xffffffad这样的情况，这就造成了在接受端不能还原汉字；所以你拆分后要把0xffffffaf和0xffffffad 用unsigned char类型转换成0xaf 0xad
这样就可以了

Java从一个byte流中读取一个字符串时，将把平台相关的byte转变为平台无关的Unicode字符串。在输出时Java将把Unicode字符串转变为平台相关的byte流，如果某个Unicode字符在某个平台上不存在，将会输出一个´?´。