最近抽了点时间去了解了下Unicode,UTF-8,Base64之间的关系,以及它们之间 的一些转换规则,并且自己动手按照相应的编码规则实现了相应的编解码,虽然写的很生硬,没有网上一些大神写的那么简洁,编解码效率可能也不那么高,但是我还是决定把我自己的实现思路分享一下,希望可以为那些想了解具体编码规则及过程的网友有一定的帮助,另外也希望各位大神指点指点,看看如何实现编解码可以让代码更高效更简洁。
对于Unicode,UTF-8,Base64的具体定义本文不会过多解释,因为网上一搜一大把,本文主要讲编解码的规则和实现。以下内容便是按照相应规则对UTF-8,Base64的编解码实现。对于以下代码我已经进行了初步的验证,可正常编解码,各位网友可以直接拷贝使用,如有疑问或是代码有问题,请留言,我会尽快回复并跟进,谢谢!
/*
百度百科对UTF-8的定义:UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码Unicode字符。用在网页上可以统一页面显示中文简体繁体及其它语言(如英文,日文,韩文),简单来说就是UTF-8是Unicode的一种实现方式。
Unicode符号范围 | UTF-8编码方式
(十六进制) | (十进制) | (二进制)--------------------+---------------------------------------------
0000 0000-0000 007F | 0-127 | 0xxxxxxx
0000 0080-0000 07FF | 128-2047 | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 2048-65535 | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 65536-1114111 | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
UTF-8的编码规则只有二条:
1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。x表示可用编码的位。
Unicode符号范围 | UTF-8编码方式
*/
function UTF8()
{
this.encode = function (string) {
var utftext = "";
var byte = [];
for (var n = 0; n < string.length; n++) {
var c = string.charCodeAt(n);//获取对应的unicode
if (c < 128) {
utftext += '\\x' + c.toString(16).toUpperCase();//单字节字符
byte.push(c);
}
else {
var byte_count = 2;
if (c > 127 && c < 2048)
byte_count = 2;
else if (c > 2047 && c < 65536)
byte_count = 3;
else if (c > 65535 && c < 1114112)
byte_count = 4;
else
return "编码失败!仅支持4位字节及以下的字符串编码!";
var height_code = '';
for (var j = 0; j < 8; j++) {
if (j < byte_count)