今天在写socket接口的时候,需要接受数据,对数据处理完以后需要发送到别的地址。因为接受和发送的数据字符集不同,所以中间需要处理字符集。以前对这个不是很清楚,今天在写的时候发现了两点,做一下总结。本人做Java开发,所以都是用Java举例。
字符串
首先明确一点,Java的String类型,是没有字符集的概念的,字符串就只是字符串。比如:
String str = "这是一个字符串ABC";
字符集
举常见的GBK和UTF-8,需要用到字符集的地方,一般是接收数据和发送数据的时候,你想要把字节数组按照什么字符集规则解码接收,和你想要把字符串按照什么字符集规则编码发送。
比如说,程序A要发送字符串str
String str = "这是一个字符串ABC";
它按照GBK的进行编码发送到了B,那么B就必须按照GBK的编码规则进行解码,否则就出现了乱码。如果B按照GBK进行解码,得到了字符串str,此时这个字符串就没有字符集的概念了,就只是一个单纯的字符串,清纯不做作。
这时B准备把字符串str发送给C,B的项目默认编码是GBK,C表示它用的是UTF-8也不准备修改接收的编码,那么需要指定编码规则:
byte[] bytes = str.getBytes(Charset.forName("UTF-8"));
如果B项目的默认编码是UTF-8,那么就不需要指定了,直接默认编码就可以:
byte[] bytes = str.getBytes();
以上是简单小结,后续有新想法再补充。