全面了解 ASCII编码 Unicode编码 URL编码及其相关函数

最新推荐文章于 2024-06-09 20:48:54 发布

lianjiuxiao

最新推荐文章于 2024-06-09 20:48:54 发布

阅读量697

点赞数

分类专栏： js

本文链接：https://blog.csdn.net/lianjiuxiao/article/details/111723211

版权

js 专栏收录该内容

63 篇文章 1 订阅

订阅专栏

一： ASCII码

ASCII第一次以规范标准的型态发表是在1967年，最后一次更新则是在1986年，至今为止共定义了128个字符，其中33个字符无法显示（这是以现今操作系统为依归，但在DOS模式下可显示出一些诸如笑脸、扑克牌花式等8-bit符号），且这33个字符多数都已是陈废的控制字符，控制字符的用途主要是用来操控已经处理过的文字，在33个字符之外的是95个可显示的字符，包含用键盘敲下空白键所产生的空白字符也算1个可显示字符（显示为空白）

ASCII控制字符

二进制	十进制	十六进制	缩写	可以显示的表示法	名称/意义
0000 0000	0	00	NUL	␀	空字符（Null）
0000 0001	1	01	SOH	␁	标题开始
0000 0010	2	02	STX	␂	本文开始
0000 0011	3	03	ETX	␃	本文结束
0000 0100	4	04	EOT	␄	传输结束
0000 0101	5	05	ENQ	␅	请求
0000 0110	6	06	ACK	␆	确认回应
0000 0111	7	07	BEL	␇	响铃
0000 1000	8	08	BS	␈	退格
0000 1001	9	09	HT	␉	水平定位符号
0000 1010	10	0A	LF	␊	换行键
0000 1011	11	0B	VT	␋	垂直定位符号
0000 1100	12	0C	FF	␌	换页键
0000 1101	13	0D	CR	␍	归位键
0000 1110	14	0E	SO	␎	取消变换（Shift out）
0000 1111	15	0F	SI	␏	启用变换（Shift in）
0001 0000	16	10	DLE	␐	跳出数据通讯
0001 0001	17	11	DC1	␑	设备控制一（XON 启用软件速度控制）
0001 0010	18	12	DC2	␒	设备控制二
0001 0011	19	13	DC3	␓	设备控制三（XOFF 停用软件速度控制）
0001 0100	20	14	DC4	␔	设备控制四
0001 0101	21	15	NAK	␕	确认失败回应
0001 0110	22	16	SYN	␖	同步用暂停
0001 0111	23	17	ETB	␗	区块传输结束
0001 1000	24	18	CAN	␘	取消
0001 1001	25	19	EM	␙	连接介质中断
0001 1010	26	1A	SUB	␚	替换
0001 1011	27	1B	ESC	␛	跳出
0001 1100	28	1C	FS	␜	文件分割符
0001 1101	29	1D	GS	␝	组群分隔符
0001 1110	30	1E	RS	␞	记录分隔符
0001 1111	31	1F	US	␟	单元分隔符
0111 1111	127	7F	DEL	␡	删除

ASCII可显示字符

二进制	十进制	十六进制	图形
0010 0000	32	20	（空格）(␠)
0010 0001	33	21	!
0010 0010	34	22	"
0010 0011	35	23	#
0010 0100	36	24	$
0010 0101	37	25	%
0010 0110	38	26	&
0010 0111	39	27	'
0010 1000	40	28	(
0010 1001	41	29	)
0010 1010	42	2A	*
0010 1011	43	2B	+
0010 1100	44	2C	,
0010 1101	45	2D	-
0010 1110	46	2E	.
0010 1111	47	2F	/
0011 0000	48	30	0
0011 0001	49	31	1
0011 0010	50	32	2
0011 0011	51	33	3
0011 0100	52	34	4
0011 0101	53	35	5
0011 0110	54	36	6
0011 0111	55	37	7
0011 1000	56	38	8
0011 1001	57	39	9
0011 1010	58	3A	:
0011 1011	59	3B	;
0011 1100	60	3C	<
0011 1101	61	3D	=
0011 1110	62	3E	>
0011 1111	63	3F	?

二进制	十进制	十六进制	图形
0100 0000	64	40	@
0100 0001	65	41	A
0100 0010	66	42	B
0100 0011	67	43	C
0100 0100	68	44	D
0100 0101	69	45	E
0100 0110	70	46	F
0100 0111	71	47	G
0100 1000	72	48	H
0100 1001	73	49	I
0100 1010	74	4A	J
0100 1011	75	4B	K
0100 1100	76	4C	L
0100 1101	77	4D	M
0100 1110	78	4E	N
0100 1111	79	4F	O
0101 0000	80	50	P
0101 0001	81	51	Q
0101 0010	82	52	R
0101 0011	83	53	S
0101 0100	84	54	T
0101 0101	85	55	U
0101 0110	86	56	V
0101 0111	87	57	W
0101 1000	88	58	X
0101 1001	89	59	Y
0101 1010	90	5A	Z
0101 1011	91	5B	[
0101 1100	92	5C	\
0101 1101	93	5D	]
0101 1110	94	5E	^
0101 1111	95	5F	_

二进制	十进制	十六进制	图形
0110 0000	96	60	`
0110 0001	97	61	a
0110 0010	98	62	b
0110 0011	99	63	c
0110 0100	100	64	d
0110 0101	101	65	e
0110 0110	102	66	f
0110 0111	103	67	g
0110 1000	104	68	h
0110 1001	105	69	i
0110 1010	106	6A	j
0110 1011	107	6B	k
0110 1100	108	6C	l
0110 1101	109	6D	m
0110 1110	110	6E	n
0110 1111	111	6F	o
0111 0000	112	70	p
0111 0001	113	71	q
0111 0010	114	72	r
0111 0011	115	73	s
0111 0100	116	74	t
0111 0101	117	75	u
0111 0110	118	76	v
0111 0111	119	77	w
0111 1000	120	78	x
0111 1001	121	79	y
0111 1010	122	7A	z
0111 1011	123	7B	{
0111 1100	124	7C	\|
0111 1101	125	7D	}
0111 1110	126	7E	~

二： Unicode码

Unicode是一个编码方案，Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。Unicode 编码共有三种具体实现，分别为utf-8,utf-16,utf-32，其中utf-8占用一到四个字节，utf-16占用二或四个字节，utf-32占用四个字节。Unicode 码在全球范围的信息交换领域均有广泛的应用。

Unicode码扩展自ASCII字元集。在严格的ASCII中，每个字元用7位元表示，或者电脑上普遍使用的每字元有8位元宽；而Unicode使用全16位元字元集。这使得Unicode能够表示世界上所有的书写语言中可能用於电脑通讯的字元、象形文字和其他符号。Unicode最初打算作为ASCII的补充，可能的话，最终将代替它。考虑到ASCII是电脑中最具支配地位的标准，所以这的确是一个很高的目标

在计算机的存储单元中，一个ASCII码值占一个字节(8个二进制位)，其最高位(b7)用作奇偶校验位。所谓奇偶校验，是指在代码传送过程中用来检验是否出现错误的一种方法，一般分奇校验和偶校验两种。奇校验规定：正确的代码一个字节中1的个数必须是奇数，若非奇数，则在最高位b7添1；偶校验规定：正确的代码一个字节中1的个数必须是偶数，若非偶数，则在最高位b7添1。 [3]

增添Unicode码内容：它前128个字符就是ASCII码，之后是扩展码。在Unicode码中，各个字符块基于同样的标准。其中有希腊字母，西里尔文，亚美尼亚文，希伯来文等。而汉文，韩语，日语的象形文字占用从0X3000到0X9FFF的代码。最杰出的地方是，它只有一个字符集，有效的避免了双字节字符集的二义性。缺点是：占用的内存空间比ASCII大1倍。 [4]

Unicode码：Unicode码也是一种国际标准编码，采用二个字节编码，与ASCII码不兼容。在网络、Windows系统和很多大型软件中得到应用。

三：URL编码

每对name/value由&；符分开；每对来自表单的name/value由=符分开。如果用户没有输入值给这个name，那么这个name还是出现，只是无值。任何特殊的字符（就是那些不是简单的七位ASCII，如汉字）将以百分符%用十六进制编码，当然也包括象 =,&；，和 % 这些特殊的字符

其实url编码就是一个字符ascii码的十六进制。不过稍微有些变动，需要在前面加上“%”。比如“\”，它的ascii码是92，92的十六进制是5c，所以“\”的url编码就是%5c。

四：相关函数：

方法	说明
escape()	使用转义序列替换某些字符来对字符串进行编码
unescape()	对使用 escape() 编码的字符串进行解码
encodeURI()	通过转义某些字符对 URI 进行编码
decodeURI()	对使用 encodeURI() 方法编码的字符串进行解码
encodeURIComponent()	通过某些转义字符对 URI 的组件进行编码
deencodeURIComponent()	对使用 encodeURIComponent() 方法编码的字符串进行解码
charCodeAt()	返回在指定的位置的字符的 Unicode 编码。
fromCharCode()	将 Unicode 编码转为字符。

1: escape() 编码与 unescape() 解码

escape() 该方法不会对 ASCII 字母和数字进行编码，也不会对下面这些 ASCII 标点符号进行编码： * @ - _ + . / 。其他所有的字符都会被转义序列替换。方法能够把 ASCII 之外的所有字符转换为 %xx 或 %uxxxx（x表示十六进制的数字）的转义序列。从 \u0000 到 \u00ff 的 Unicode 字符由转义序列 %xx 替代，其他所有 Unicode 字符由 %uxxxx 序列替代。

var s = "JavaScript 中国";
s = escape(s);
// "JavaScript%20%u4E2D%u56FD"


escape('*@-_+./'); 

// *@-_+./

2: encodeURI() 编码与 decodeURI() 解码

var s = "JavaScript 中国";
s = escape(s);
// "JavaScript%20%E4%B8%AD%E5%9B%BD"

// decodeURI('%E4%B8%AD')  中

3: encodeURIComponent() 与 decodeURIComponent()

encodeURIComponent() 函数可把字符串作为 URI 组件进行编码。该方法不会对 ASCII 字母和数字进行编码，也不会对这些 ASCII 标点符号进行编码： - _ . ! ~ * ' ( ) 。其他字符（比如：;/?:@&=+$,# 这些用于分隔 URI 组件的标点符号），都是由一个或多个十六进制的转义序列替换的。如果 URI 组件中含有分隔符，比如 ? 和 #，则应当使用 encodeURIComponent() 方法分别对各组件进行编码。所以在微信授权的回调地址中使用 encodeURIComponent() 进行编码

encodeURIComponent("http://www.w3school.com.cn")
// "http%3A%2F%2Fwww.w3school.com.cn"

4: charCodeAt() 与 fromCharCode()

const s = "JavaScript 中国"
for(let i=0; i < s.length; i++){
	console.log("字符："+ s.charAt(i) + '的ASCII码是' + s.charCodeAt(i) );
}

// 字符：J的ASCII码是74
   字符：a的ASCII码是97
   字符：v的ASCII码是118
   字符：a的ASCII码是97
   字符：S的ASCII码是83
   字符：c的ASCII码是99
   字符：r的ASCII码是114
   字符：i的ASCII码是105
   字符：p的ASCII码是112
   字符：t的ASCII码是116
   字符： 的ASCII码是32
   字符：中的ASCII码是20013
   字符：国的ASCII码是22269

注意有些特殊字符是由多个ASCII 码组成

"e\u0301" // "é"

"e\u0301".length  //2


const s = "e\u0301"
for(let i=0; i < s.length; i++){
	console.log("字符："+ s.charAt(i) + '的ASCII码是' + s.charCodeAt(i) );
}

// 字符：e的ASCII码是101
// 字符：́的ASCII码是769

lianjiuxiao

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
全面了解 ASCII编码 Unicode编码 URL编码及其相关函数

一： ASCII码ASCII第一次以规范标准的型态发表是在1967年，最后一次更新则是在1986年，至今为止共定义了128个字符，其中33个字符无法显示（这是以现今操作系统为依归，但在DOS模式下可显示出一些诸如笑脸、扑克牌花式等8-bit符号），且这33个字符多数都已是陈废的控制字符，控制字符的用途主要是用来操控已经处理过的文字，在33个字符之外的是95个可显示的字符，包含用键盘敲下空白键所产生的空白字符也算1个可显示字符（显示为空白）ASCII控制字符二进制十进制十六进制
复制链接

扫一扫