1 编码方式:
- us-ascii:所有编码鼻祖
- iso-8859-1:对ASCII的拓展,在高128位包含了西欧字符
- iso-8859-2:包含了中欧/东欧语言
- iso-8859-3:包含了南欧语言
- iso-8859-4:包含了北欧语言
- iso-8859-5:包括斯拉夫语等
- iso-8859-6:包含了阿拉伯语等
- iso-8859-7:包括现代希腊语
- iso-8859-8:包括了希伯来语等
- iso-8859-9:包含了土耳其语
- iso-8859-10:包含了日耳曼、斯堪的那维亚语言
- iso-8859-15:加入了欧元等符号,准备替代iso-8859-1
- iso-2022-jp:变长编码,日语用
- euc-jp:
- Shift_JIS:微软开发,复杂不全面
- koi8-r:为俄语设计
- utf-8:变长编码,每个字符使用1-6个字节,对ASCII向后兼容
- windows-1252:
- ucs:Universal Character Set,统一字符集
2 编码标记:
不区分大小写,但习惯上全小写表示语言,全大写表示特定国家
主要分:主标记(语言)-子标记(国家)-子标记(其它)
3 URI
URI中的US-ASCII字符集分为:
- 未保留:可以任意用
- 保留:不能用
- 转义:%C2 这样的十六进制,HTTP仅在需要数据时才对URI进行转义;注意,要转义的值本身就在US-ASCII范围内