HTML - 字符编码( Character Encodings)
字符编码是一种将字节转换为字符的方法。 要正确验证或显示HTML文档,程序必须选择正确的字符编码。
计算机上使用的最常见的字符集或字符编码是ASCII - The American Standard Code for Information Interchange ,这可能是用于电子编码文本的最广泛使用的字符集。
ASCII编码仅支持大写和小写拉丁字母,数字0-9,以及一些总共128个字符的额外字符。 您可以查看完整的可打印ASCII字符集
但是,许多语言使用重音拉丁字符或完全不同的字母表。 ASCII不解决这些字符; 因此,如果要使用任何非ASCII字符,则需要了解字符编码。
国际标准组织创建了一系列字符集来处理不同的国家特征。 对于英语和大多数其他西欧语言的文档,使用广泛支持的编码ISO-8859-1。
以下是世界各地使用的字符集列表及其说明。Sr.No字符集和描述
1ISO-8859-1
拉丁字母第1部分
覆盖北美,西欧,拉丁美洲,加勒比海,加拿大,非洲
2ISO-8859-2
拉丁字母第2部分
覆盖东欧
3ISO-8859-3
拉丁字母第3部分
覆盖SE欧洲,世界语,其他杂项
4ISO-8859-4
拉丁字母第4部分
覆盖斯堪的纳维亚/波罗的海(以及其他非ISO-8859-1)
5ISO-8859-5
拉丁文/西里尔字母第5部分
6ISO-8859-6
拉丁/阿拉伯字母第6部分
7ISO-8859-7
拉丁文/希腊字母第7部分
8ISO-8859-8
拉丁文/希伯来文字母第8部分
9ISO-8859-9
拉丁语5字母第9部分
与ISO-8859-1相同,但土耳其语字符取代冰岛语字符
10ISO-8859-10
拉丁语6拉丁语6拉普兰语,北欧语和爱斯基摩语
11ISO-8859-15
与ISO-8859-1相同,但添加了更多字符
12ISO-2022-JP
拉丁文/日文字母第1部分
13ISO-2022-JP-2
拉丁文/日文字母第2部分
14ISO-2022-KR
拉丁文/韩文字母第1部分
然后设置Unicode Consortium以设计一种显示不同语言的所有字符的方法,而不是为不同的语言提供这些不同的不兼容字符代码。
因此,如果要创建使用多个字符集中的字符的文档,则可以使用单个Unicode字符编码来执行此操作。
因此,Unicode指定了可以以特殊方式处理字符串的编码,以便为它所包含的巨大字符集提供足够的空间。 这些被称为UTF8,UTF-16和UTF-32。Sr.No字符集和描述
1UTF-8
Unicode转换格式,以8位为单位,以字节为单位。 UTF8中的字符长度可以是1到4个字节,使得UTF8可变宽度。
2UTF-16
一种Unicode转换格式,以16位为单位,简而言之。 它可以是1或2个短裤,使UTF16可变宽度。
3UTF-32
一种Unicode转换格式,以32位为单位,它有很多。 它是固定宽度的格式,长度始终为1“长”。
Unicode字符集的前256个字符对应于ISO-8859-1的256个字符。
默认情况下,HTML 4处理器应支持UTF-8,而XML处理器应支持UTF-8和UTF-16; 因此,所有符合XHTML标准的处理器也应支持UTF-16。