Linux平台Java环境中文编码研究

最新推荐文章于 2024-05-12 02:09:27 发布

谐音太郎

最新推荐文章于 2024-05-12 02:09:27 发布

阅读量9k

点赞数 2

分类专栏： Java基础解惑集

本文链接：https://blog.csdn.net/shootyou/article/details/45672091

版权

09年在原来公司做的一篇文章，现在共享出来。

此次研究主要针对Linux操作系统中Java环境下可能产生的中文乱码问题展开一些试验，目的在于寻求一套无乱码的解决方案。

此文档目的在于详细介绍《2 过程记录文档》中得出的相关结论，以及描述建立一个统一编码环境的具体过程。

一、准备知识

1. 字节、字符、编码

从计算机对多国语言的支持角度看，大致可以分为三个阶段：

	系统内码	说明	系统
阶段一	ASCII	计算机刚开始只支持英语，其它语言不能够在计算机上存储和显示。	英文 DOS
阶段二	ANSI编码（本地化）	为使计算机支持更多语言，通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符。比如：汉字 '中' 在中文操作系统中，使用 [0xD6,0xD0] 这两个字节存储。不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文操作系统下，ANSI 编码代表 JIS 编码。不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。	中文 DOS，中文 Windows 95/98，日文 Windows 95/98
阶段三	UNICODE （国际化）	为了使国际间信息交流更加方便，国际组织制定了 UNICODE 字符集，为各种语言中的每一个字符设定了统一并且唯一的数字编号，以满足跨语言、跨平台进行文本转换、处理的要求。	Windows NT/2000/XP，Linux，Java

字符串在内存中的存放方法：

在 ASCII 阶段，单字节字符串使用一个字节存放一个字符（SBCS）。比如，"Bob123"在内存中为：

42	6F	62	31	32	33	00
B	o	b	1	2	3	\0

在使用 ANSI 编码支持多种语言阶段，每个字符使用一个字节或多个字节来表示（MBCS），因此，这种方式存放的字符也被称作多字节字符。比如，"中文123" 在中文 Windows 95 内存中为7个字节，每个汉字占2个字节，每个英文和数字字符占1个字节：

D6	D0	CE	C4	31	32	33	00
中		文		1	2	3	\0

在 UNICODE 被采用之后，计算机存放字符串时，改为存放每个字符在 UNICODE 字符集中的序号。目前计算机一般使用 2 个字节（16 位）来存放一个序号（DBCS），因此，这种方式存放的字符也被称作宽字节字符。比如，字符串 "中文123" 在 Windows 2000 下，内存中实际存放的是 5 个序号：

2D	4E	87	65	31	00	32	00	33	00	00	00
中		文		1

最低0.47元/天解锁文章

谐音太郎

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
Linux平台Java环境中文编码研究

09年在原来公司做的一篇文章，现在共享出来。此次研究主要针对Linux操作系统中Java环境下可能产生的中文乱码问题展开一些试验，目的在于寻求一套无乱码的解决方案。此文档目的在于详细介绍《2 过程记录文档》中得出的相关结论，以及描述建立一个统一编码环境的具体过程。一、准备知识1. 字节、字符、编码从计算机对多国语言的支持角度看，大致可以分为三个阶段：
复制链接

扫一扫