常见字符编码

最新推荐文章于 2023-07-27 18:47:27 发布

海波booy

最新推荐文章于 2023-07-27 18:47:27 发布

阅读量202

点赞数

分类专栏： java基础文章标签：乱码 gbk unicode

本文链接：https://blog.csdn.net/booy123/article/details/106042593

版权

java基础专栏收录该内容

101 篇文章 0 订阅

订阅专栏

在程序中如果没有处理好字符编码问题，就可能容易出现乱码
在计算机的世界里，任何文字都是以指定的编码方式存在的
常见的编码有ISO8859-1、GBK/GB2312、unicode、UTF。

ISO8859-1：
编码属于单字节编码，最多只能表示0-255的字符范围，主要英文上应用。

GBK/GB2312：
中文的国际编码，专门用来表示汉字，是双字节编码，GBK比GB2312编码库更大。

unicode：
java中就是使用此编码方式，也是最标准的一种编码，是使用16进制表示的编码。但此编码不兼容iso8859-1编码。

UTF：
由于unicode不支持ISO8859-1编码，而且容易占用更多的空间，而且对于英文字母也需要使用两个字节编码，这样使用unicode不便于传输和存储，因此产生了utf编码，utf编码兼容了ISO8859-1编码，也可以用来表示所有语言字符，不过utf是不定长编码，每个字符的长度从1-6字节不等，一般在中文网页中使用此编码，因为这样可以节省空间。

造成乱码的根本原因：
1、程序使用的编码与本机的编码不统一
2、在网络中，客户端与服务端编码不统一

package com.Decorator;

import java.io.UnsupportedEncodingException;

public class codeDemo {
	public static void main(String[] args) {
		//通常产生乱码的情况是，两个不兼容的编码相互转换
		String info = "小乔流水人家";//GBk
		try {
			String info1 = new String(info.getBytes("gbk"),"iso8859-1");
			System.out.println(info1);
			
			String info2 = new String(info.getBytes("iso8859-1"),"gb2312");
			System.out.println(info2);
			
			String info3 = new String(info.getBytes("gb2312"),"gbk");
			System.out.println(info3);
			
		} catch (UnsupportedEncodingException e) {
			e.printStackTrace();
		}	
	}
}
/**
运行结果：
Ð¡ÇÇÁ÷Ë®ÈË¼Ò
??????
小乔流水人家
*/