Technorati 标签: base64, encode
base64编码介绍:
Base64是一种基于64个可打印字符来表示二进制数据的表示方法。由于2的6次方等于64,所以每6个比特为一个单元,对应某个可打印字符。三个字节有24个比特,对应于4个Base64单元,即3个字节需要用4个可打印字符来表示。它可用来作为电子邮件的传输编码。在Base64中的可打印字符包括字母A-Z、a-z、数字0-9 ,这样共有62个字符,此外两个可打印符号在不同的系统中而不同。一些如uuencode的其他编码方法,和之后binhex的版本使用不同的64字符集来代表6个二进制数字,但是它们不叫Base64。
Base64常用于在通常处理文本数据的场合,表示、传输、存储一些二进制数据。包括MIME的email,email via MIME, 在XML中存储复杂数据.
转换的时候,将三个byte的数据,先后放入一个24bit的缓冲区中,先来的byte占高位。数据不足3byte的话,于缓冲区中剩下的bit用0补足。然后,每次取出6(因为)个bit,按照其值选择ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/中的字符作为编码后的输出。不断进行,直到全部输入数据转换完成。
如果最后剩下两个输入数据,在编码结果后加1个“=”;如果最后剩下一个输入数据,编码结果后加2个“=”;如果没有剩下任何数据,就什么都不要加,这样才可以保证资料还原的正确性。
base64编码规则
用例子来说明总是更好理解一些,我们先以3个字节的情况为例:
源字符串为“123”,对应的16进制:0x31 0x32 0x33,2进制为:
00110001 00110010 00110011
base64就是要将这3*8个bits的数据转为4*8的数据,转换规则:
将这24个bits排成一列,每次取6个,在前面补00
00110001 00110010 00110011
因此00110001 00110010 00110011 转化为:
00001100
00010011
00001000
00110011
分别对应十进制里的: 12 19 8 51,对照下编码表里即为MTIz.
可以看到如果源字符串长度是3的倍数,那么按照上面的规则肯定没问题了。如果不是呢?
好了,再来看下特殊情况,如果源字符串长度余3后为1或者2呢?
很容易,如果是转换的时候,本身凑不够6个bits(后面没有字节,字符串长度不够),那么空位上补0即可。
如果是1,空余的字节处补两个’=’,即两个padding。如果是2,空余的字节处补一个’=’,即一个padding。
我的实现代码,有需要改进的地方请指出:
#include#include/*base64编码表 */charbase64Alphabet[]=
{'A','B','C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z','a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z','0','1','2','3','4','5','6','7','8','9','+','/','='};/**
* @author izualzhy@163.com
* @brief base64Encode :根据传入字符串返回base64编码后的值
*
* @param source: 原字符串
* @param sourceLength: 原字符串长度
*
* @return: base64编码后的字符串
*/unsigned char*base64Encode(const char*source,const intsourceLength)
{/*命名为padding不准确,不过先不改了^_^*/unsigned intpadding =sourceLength%3;unsigned intresultLength =sourceLength%3? ((sourceLength)/3+1)*4: (sourceLength)/3*4;unsigned inti=0,j=0;unsigned char*result = (unsigned char*)malloc(resultLength +1);memset(result,0,resultLength+1);unsigned chartemp =0;for(i=0,j=0;i
{if(i+2>=sourceLength)
{result[j] = (source[i]>>2) &0x3F;if(padding==1)
{//这里padding实际为2result[j+1] = ((source[i] &0x03)<<4) &0x3F;result[j+2] =0x40;result[j+3] =0x40;break;
}else if(padding==2)
{//这里padding实际为1result[j+1] = (((source[i] &0x03)<<4) | ((source[i+1]>>4) &0x0F));result[j+2] = ((source[i+1] &0x0f)<<2) &0x3F;result[j+3] =0x40;break;
}
}result[j] = (source[i]>>2) &0x3F;//最高两位要变为0result[j+1] = (((source[i] &0x03)<<4) | ((source[i+1]>>4) &0x0F));//0x03(只取最低两位,其余位为0) 0x0F(只取低四位,其余位为0)result[j+2] = (((source[i+1] &0x0f)<<2) | ((source[i+2]>>6) &0x03));result[j+3] = (source[i+2] &0x3F);
}for(j=0;j
{result[j] =base64Alphabet[result[j]];
}returnresult;
}intmain(intargc,char*argv[])
{printf("%s\n",base64Encode(argv[1],strlen(argv[1]))); //忘了free了...return0;
}