算数编码的原理
算术编码的编码对象是一则消息或一个字符序列,其编码思路是将消息或字符序列表示成0和1之间的一个间隔上的一个浮点小数。 在进行算术编码之前,需要对字符序列中每个字符的出现概率进行统计,根据各字符出现概率的大小,将每个字符映射到[0,1]区间上的某个子区间中。然后,在利用递归算法,将整个字符序列映射到[0,1]区间上的某个间隔中。在进行编码时,只需从该间隔中任选一个小数,将其转化为二进制数。 符号序列越长,编码表示他的间隔就越小,表示这个间隔所需的二进制位数就越多,编码输出的码字就越长。比如有一字符串a3 a1 a4 a3 a4 a2 a1
期间的变化过程如下
最后得到0.514387即为a3 a1 a4 a3 a4 a2 a1的算数编码。
算数编码的实验代码
实验要求
–将自己名字的拼音字符(可以选择5个字符),进行无损压缩算法(概率可以参考字符频率自定义,也可以使用词典编码实现);代码如下
symbol=['whxg'];
pr=[0.1 0.4 0.2 0.3 ]; %各字符出现的概率,可以自行修改
temp=[0.0 0.1 0.5 0.7 1.0];
orignal=temp;
in=input('input a string:');
n=length(in);
%编码
for i=1:n
width=temp(5)-temp(1);
w=temp(1);
switch in(i)
case 'w'
m=1;
case 'h'
m=2;
case 'x'
m=3;
case 'g'
m=4;
otherwise
error('do not input other character');
end
temp(1)=w+orignal(m)*width;
temp(5)=w+orignal(m+1)*width;
left=temp(1);
right=temp(5);
fprintf('left=%.6f',left);
fprintf(' ');
fprintf('right=%.6f\n',right);
end
encode=(temp(1)+temp(5))/2
%解码
decode=['0'];
for i=1:n
fprintf('tmp=%.6f\n',encode);
if(encode>=orignal(1)& encode<orignal(2))
decode(i)='w';
t=1;
elseif(encode>=orignal(2)& encode<orignal(3))
decode(i)='h';
t=2;
elseif(encode>=orignal(3)& encode<orignal(4))
decode(i)='x';
t=3;
else
decode(i)='g';
t=4;
end
encode=(encode-orignal(t));
encode=encode/pr(t);
end
decode